MDP 的定义
马尔可夫奖励过程(Markov reward process,MRP)
- 在马尔可夫过程的基础上加入奖励 $R$ 和奖励衰减因子 $\gamma$
- 马尔可夫奖励过程中时刻 $t$ 的回报 $G_{t}$ 是未来奖励的衰减折现
$$ G_{t}=R_{t}+\gamma R_{t+1}+\gamma^2 R_{t+2}+\dots+\gamma^n R_{t+n} $$
- 马尔可夫奖励过程中的状态价值函数 $v(s)=E[G_{t}|S_{t}=s]$
分类目录归档:学习
马尔可夫奖励过程(Markov reward process,MRP)
$$ G_{t}=R_{t}+\gamma R_{t+1}+\gamma^2 R_{t+2}+\dots+\gamma^n R_{t+n} $$
强化学习(reinforcement learning,RL)
强化学习的三个基本要素:
注意:
多 Agent 设计技巧:
前置知识:思维链提示 CoT 和自洽性 self-consistency
思维树 ToT (Tree of Thoughts,2023-05):

以“24 点数字”游戏为例来说明 ToT 的实现步骤:

MCP 协议基本架构(图源)

目前 MCP 协议已得到了广泛的生态支持,兼具通用性和灵活性
MCP 的会话管理
过敏性休克
美国过敏性休克的终身患病率估计在 0.05%至 2%之间
过敏性休克的临床标准:美国国立过敏和传染病研究所(NIAID)金标准
UMAP 算法
UMAP 定义的概念解释与补充:
t-SNE 算法
算法过程概述: