策略梯度算法

策略梯度（Policy Gradient）

基于价值（Value Based）方法的局限性：

基于策略的方法能在一定程度上解决以上三个问题

策略函数与目标

定义策略 $\pi$ 是一个包含参数 $\theta$ 的函数： $$ \pi_{\theta}(s,a) = P(a|s,\theta)\approx \pi(a|s) $$

对策略进行参数化后，再设计策略函数的优化目标；即可使用梯度下降等方法更新策略的参数，从而根据策略函数找到特定状态下的最佳动作

策略函数的优化目标设计思路

假设目标函数为 $J$，则策略参数 $\theta$ 的梯度计算可表示为： $$ \nabla_{\theta} J(\theta) = \mathbb{E}_{\pi_{\theta}}[\nabla_{\theta}log \pi_{\theta}(s,a) Q_{\pi}(s,a)] $$

$\nabla_{\theta}log \pi_{\theta}(s,a)$ 一般被称为分值函数（score function）

对于离散策略，策略函数的形式一般为 softmax 函数： $$ \pi_{\theta}(s,a) = \frac{e^{\phi(s,a)^T\theta}}{\sum\limits_be^{\phi(s,b)^T\theta}} $$

其中 $\phi(s,a)$ 表示包含状态 $s$ 和行为 $a$ 信息的特征向量
参数 $\theta$ 通过不同特征的线性组合，来描述行为 $a$ 的发生概率
该策略函数对应的分值函数为 $\nabla_{\theta}log \pi_{\theta}(s,a) = \phi(s,a) - \mathbb{E}{\pi{\theta}}[\phi(s,.)]$

对于连续策略，策略输出的行为概率一般从正态分布中产生： $$ \pi_{\theta}(s,a)~\mathbb{N(\phi(s)^T\theta, \sigma^2)} $$

该策略函数对应的分值函数为 $\nabla_{\theta}log \pi_{\theta}(s,a) = \frac{(a-\phi(s)^T\theta)\phi(s)}{\sigma^2}$

REINFORCE 是一种基于蒙特卡洛方法的简单策略梯度算法

REINFORCE 的算法过程：

\theta = \theta + \alpha \nabla_{\theta}log \pi_{\theta}(s_t,a_t) v_{t} $$ 5. 重复步骤 2~4 过程 N 次，得到更新后的策略函数

在REINFORCE 的实际应用中，价值函数的计算，一般是从后向前算，这样前面的价值的计算可以利用后面的价值作为中间结果，简化计算

REINFORCE 总结：

将基于策略的学习与基于价值的学习结合，是一种更常见的强化学习方法