前置知识:1_study/MachineLearning/强化学习/强化学习入门、蒙特卡洛法、马尔可夫决策过程 MDP
时序差分算法
时序差分(temporal difference,TD)
- 一种用来估计一个策略的价值函数的方法,结合了蒙特卡洛和动态规划算法的思想
- 时序差分 vs 蒙特卡洛:都可以从样本数据中学习,不需要事先知道环境;但蒙特卡洛法需要完成整个序列后才能计算得到回报 $G_{t}$,而时序差分法只需要当前步结束即可进行计算
- 时序差分 vs 动态规划:都可以根据贝尔曼方程来更新当前状态的价值估计