MDP 的定义
马尔可夫奖励过程(Markov reward process,MRP)
- 在马尔可夫过程的基础上加入奖励 $R$ 和奖励衰减因子 $\gamma$
- 马尔可夫奖励过程中时刻 $t$ 的回报 $G_{t}$ 是未来奖励的衰减折现
$$ G_{t}=R_{t}+\gamma R_{t+1}+\gamma^2 R_{t+2}+\dots+\gamma^n R_{t+n} $$
- 马尔可夫奖励过程中的状态价值函数 $v(s)=E[G_{t}|S_{t}=s]$
作者文章归档:王半仙
马尔可夫奖励过程(Markov reward process,MRP)
$$ G_{t}=R_{t}+\gamma R_{t+1}+\gamma^2 R_{t+2}+\dots+\gamma^n R_{t+n} $$
强化学习(reinforcement learning,RL)
强化学习的三个基本要素:
前情提要:
功能介绍:接收数学公式的图像并返回相应的 LaTeX 代码
模型结构:ViT 编码器 + ResNet 主干网络 + Transformer 解码器
性能表现:
BLEU 分数 | 归一化编辑距离 | token 准确率 |
---|---|---|
0.88 | 0.10 | 0.60 |
注意:
多 Agent 设计技巧:
摘录自 《医疗 CoT 全面分析》
思路分析:
提示文本:
# 多位分析师 + 多轮迭代 做 病例诊断
你是临床问诊专家,有强大的临床思维和海量的医学疾病的模式识别,你和顶尖医生在
前置知识:思维链提示 CoT 和自洽性 self-consistency
思维树 ToT (Tree of Thoughts,2023-05):
以“24 点数字”游戏为例来说明 ToT 的实现步骤: