分类目录归档:强化学习

时序差分算法 TD

前置知识:1_study/MachineLearning/强化学习/强化学习入门蒙特卡洛法马尔可夫决策过程 MDP

时序差分算法

时序差分(temporal difference,TD)

  • 一种用来估计一个策略的价值函数的方法,结合了蒙特卡洛和动态规划算法的思想
  • 时序差分 vs 蒙特卡洛:都可以从样本数据中学习,不需要事先知道环境;但蒙特卡洛法需要完成整个序列后才能计算得到回报 $G_{t}$,而时序差分法只需要当前步结束即可进行计算
  • 时序差分 vs 动态规划:都可以根据贝尔曼方程来更新当前状态的价值估计

Read more

马尔可夫决策过程 MDP

前置知识:1_study/math/马尔可夫模型1_study/MachineLearning/强化学习/强化学习入门

MDP 的定义

马尔可夫奖励过程(Markov reward process,MRP)

  • 在马尔可夫过程的基础上加入奖励 $R$ 和奖励衰减因子 $\gamma$
  • 马尔可夫奖励过程中时刻 $t$ 的回报 $G_{t}$ 是未来奖励的衰减折现

$$ G_{t}=R_{t}+\gamma R_{t+1}+\gamma^2 R_{t+2}+\dots+\gamma^n R_{t+n} $$

Read more

强化学习入门

强化学习的定义

强化学习(reinforcement learning,RL)

  • RL 是 Agent 通过动作与环境交互,从而实现特定目标最优化的一种计算方法
  • Agent 在环境状态为 $S_{t}$ 的情况下产生一个动作决策 $A_{t}$,并将 $A_{t}$ 作用到环境中
  • 然后环境发生相应的改变,并将相应的奖励反馈 $R$ 和下一轮状态 $S_{t+1}$ 传回机器
  • 以上交互是迭代进行的,目标是最大化在多轮交互过程中获得的累积奖励的期望

强化学习的三个基本要素:

  1. 状态 $S$,Agent 需要能感知当前环境的状态;比如 AlphaGo 需要了

Read more