策略梯度算法

前置知识:强化学习入门Deep Q-Learning

策略梯度算法

策略梯度(Policy Gradient)

  • 一种基于策略(Policy Based)的基础强化学习方法
  • 区分与 TDDQN 等基于价值(Value Based)的方法
  • 策略梯度是一种在线算法,其依赖当前策略采样到的经验数据

基于价值(Value Based)方法的局限性:

  1. 离散动作空间,难以处理连续或高维的动作空间
  2. 受限状态下的问题,可能不存在基于价值的最优解
  3. 基于最大价值的策略为确定性策略,不适合随机策略问题

基于策略的

Read more

天使问题

天使问题是由英国数学家约翰·何顿·康威提出的一个博弈论问题,在 2006 年已获解答。

天使问题是关于一个叫天使与恶魔的双人游戏,其规则如下:

  1. 两名玩家分别扮演天使和恶魔
  2. 游戏开始前,指定一个正整数 K,称之为天使的力量
  3. 游戏在一个无限大的方格棋盘上进行;开始时棋盘是空的,天使停留在棋盘上的某一个方格(称为天使的起始点),恶魔并不存在于棋盘上
  4. 每一轮中,恶魔可以在棋盘上放置一个路障,路障不可以放置在天使停留处
  5. 每一轮中,天使可以向相邻格移动至多 K 步,移动过程中可以穿过路障,但移动终点必须停留在没有路障的格中;纵横斜格均算作相邻格
  6. 从恶魔开始,双方交替进行(若从天使开始,从上面的规则描

Read more

Deep Q-Learning

前置知识:强化学习入门时序差分算法 TD

Deep Q-Learning

Deep Q-Learning,简称 DQN

  • DQN 在 Q-Learning 的基础上,添加神经网络 Q 来计算价值函数
  • 网络 Q 的输入为状态向量 $\phi(S)$,输出是所有动作在该状态下的动作价值
  • DQN 通过引入网络 Q 来代替原始 Q-Learning 的 Q 表;解决了Q-Learning 只能适用于离散状态空间的局限性;因此 DQN 可用来解决连续状态下离散动作的问题

DQN 算法步骤

  1. 随机初

Read more

20250910 失效RSS源的清理记录

医疗健康

  • 外文网站(源失效) https://www.webmd.com/
  • 微信公众号(源失效):古麻今醉、NEJM 医学前沿、BASIC 重症医学

AI 前沿

金融投资:

  • 微信公众号(源失效):豆瓜的投资笔记、韭黄一家人
  • 雪球热门帖子(源失效),RSS 源备份

技术周刊:

  • 独立开发变

Read more

20250908 Manus的上下文工程经验

原文:AI代理的上下文工程:构建Manus的经验教训

上下文工程的重要性:

  • 降低从零开始训练模型中可能存在的沉没成本
  • 增加迭代速度,提高将模型转化为应用/交付的效率
  • 模型与产品解耦,并发挥基座模型持续进步的红利
  • 上下文工程影响 Agent 的速度、纠错能力和扩展性

经验 1:将 KV-cache 命中率作为生产的

Read more

列线图 Nomogram

列线图(Alignment Diagram),又称诺莫图(Nomogram 图)

  • 建立在多因素回归分析的基础上,将多个预测指标进行整合,然后采用带有刻度的线段,按照一定的比例绘制在同一平面上,从而用以表达预测模型中各个变量之间的相互关系
  • 常用于多指标联合诊断或预测疾病发病或进展,也可以用于构建评分指标

示例说明(以泰坦尼克邮轮数据集中,乘客的死亡二分类预测为例):

  • 主要考虑特征为乘客的年龄(age),客舱等级(pclass)和性别(sex)
  • Points 是每一个特征的评分参照,Total Points 是所有特征的汇总评分参照
  • Linear Predictor 是汇总评分的线性映

Read more

20250901 用 AI 快速了解一个行业
**你是一位在[行业]拥有25年以上深度实战经验的杰出行业资深人士。**你见证了多个市场周期,经历了无数次行业颠覆,与关键人物建立了关系,积累了只有通过几十年实际操作才能获得的洞察。你犯过错误,从失败中学习,庆祝过胜利,并对这个领域真正的成功驱动力有了直觉的理解。  
今天是你的最后一天,你正坐在一个真心想学习的人面前。你感到有深刻的责任,要确保所有这些来之不易的知识、不成文的真理、花了几十年才发现的行业秘密,不会随着你而消失。这不是关于教科书知识或表面建议——这是关于传承只有在这个行业生活和呼吸了四分之一世纪的人才能拥有的深度智慧。  
你不再受企业政治、职业谨慎或竞争考虑的束缚。你可以

Read more

永禁文物 195_其他地区馆藏

“统领释教大元国师之印”龙钮玉印

  • 元代官方颁授藏传佛教领袖的玉质印信
  • 该印为青玉材质,顶部蟠龙钮造型庄重,印文采用八思巴文,印面尺寸 12.4×12.1 厘米,高 11.4 厘米,重 3.27 千克。其印文为八思巴文“统领释教大元国师”
  • 体现元朝对藏传佛教高僧的册封制度,是研究元代中央政府与西藏地方关系的关键实物证据;其龙钮形制与玉质用料彰显

Read more

20250828 Agents 与未来工作_斯坦福报告

Read more