分类目录归档:强化学习 | Digital Garden | 王半仙

分类目录归档：强化学习

时序差分算法 TD

3 views

时序差分算法
N 步时序差分
SARSA 算法
Q-Learning
参考

前置知识：1_study/MachineLearning/强化学习/强化学习入门、蒙特卡洛法、马尔可夫决策过程 MDP

时序差分算法

时序差分（temporal difference，TD）

一种用来估计一个策略的价值函数的方法，结合了蒙特卡洛和动态规划算法的思想
时序差分 vs 蒙特卡洛：都可以从样本数据中学习，不需要事先知道环境；但蒙特卡洛法需要完成整个序列后才能计算得到回报 $G_{t}$，而时序差分法只需要当前步结束即可进行计算
时序差分 vs 动态规划：都可以根据贝尔曼方程来更新当前状态的价值估计

马尔可夫决策过程 MDP

4 views

MDP 的定义
贝尔曼方程
最优价值函数
动态规划求解
MDP 应用与进阶
参考

前置知识：1_study/math/马尔可夫模型，1_study/MachineLearning/强化学习/强化学习入门

MDP 的定义

马尔可夫奖励过程（Markov reward process，MRP）

在马尔可夫过程的基础上加入奖励 $R$ 和奖励衰减因子 $\gamma$
马尔可夫奖励过程中时刻 $t$ 的回报 $G_{t}$ 是未来奖励的衰减折现

$$ G_{t}=R_{t}+\gamma R_{t+1}+\gamma^2 R_{t+2}+\dots+\gamma^n R_{t+n} $$

强化学习入门

3 views

强化学习的定义
强化学习的分类

强化学习的定义

强化学习（reinforcement learning，RL）

RL 是 Agent 通过动作与环境交互，从而实现特定目标最优化的一种计算方法
Agent 在环境状态为 $S_{t}$ 的情况下产生一个动作决策 $A_{t}$，并将 $A_{t}$ 作用到环境中
然后环境发生相应的改变，并将相应的奖励反馈 $R$ 和下一轮状态 $S_{t+1}$ 传回机器
以上交互是迭代进行的，目标是最大化在多轮交互过程中获得的累积奖励的期望

强化学习的三个基本要素：

状态 $S$，Agent 需要能感知当前环境的状态；比如 AlphaGo 需要了