作者文章归档:王半仙

马尔可夫决策过程 MDP

前置知识:马尔可夫模型强化学习入门

MDP 的定义

马尔可夫奖励过程(Markov reward process,MRP)

  • 在马尔可夫过程的基础上加入奖励 $R$ 和奖励衰减因子 $\gamma$
  • 马尔可夫奖励过程中时刻 $t$ 的回报 $G_{t}$ 是未来奖励的衰减折现

$$ G_{t}=R_{t}+\gamma R_{t+1}+\gamma^2 R_{t+2}+\dots+\gamma^n R_{t+n} $$

  • 马尔可夫奖励过程中的状态价值函数 $v(s)=E[G_{t}|S_{t}=s]$

Read more

强化学习入门

强化学习的定义

强化学习(reinforcement learning,RL)

  • RL 是 Agent 通过动作与环境交互,从而实现特定目标最优化的一种计算方法
  • Agent 在环境状态为 $S_{t}$ 的情况下产生一个动作决策 $A_{t}$,并将 $A_{t}$ 作用到环境中
  • 然后环境发生相应的改变,并将相应的奖励反馈 $R$ 和下一轮状态 $S_{t+1}$ 传回机器
  • 以上交互是迭代进行的,目标是最大化在多轮交互过程中获得的累积奖励的期望

强化学习的三个基本要素:

  1. 状态 $S$,Agent 需要能感知当前环境的状态;比如 AlphaGo 需要了

Read more

LaTeX-OCR 公式识别

前情提要:

  • 之前在针对LaTex公式识别时主要用的是在线OCR 工具-simplex
  • 但这个工具现在每天会有时间限制,因此考虑增加一个本地ocr 工具

LaTex -OCR 介绍

项目地址

功能介绍:接收数学公式的图像并返回相应的 LaTeX 代码

模型结构:ViT 编码器 + ResNet 主干网络 + Transformer 解码器

性能表现:

BLEU 分数 归一化编辑距离  token 准确率
0.88 0.10 0.60

LaTex-

Read more

永禁文物 195_上海浙江馆藏

大克鼎

  • 清朝光绪中期出土于陕西扶风县法门镇任村,西周中期青铜器
  • 西周大克鼎通高93.1厘米,口径75.6厘米,腹径74.9厘米,腹深43厘米,重201.5公斤。鼎立耳,口沿下饰变形兽面纹,中又饰小兽面纹,并有觚棱凸棱,整个造型庄严厚重。腹内铸铭文290字,铭文行间皆有线相隔,笔势圆润。
  • 铭文内容则是研究西周土地制度和官制的重要资料,对于研究西周时期的职官、礼仪、土地制度等

Read more

大模型输出配置

输出长度 output length

  • 指定输出文本中的 token 最大长度,一般达到最大 token 时会自动截断
  • 输出长度的设置,并不会导致 LLMs 的输出简洁(可以通过提示工程来实现)
  • 限制最大输出长度,有助于减少能耗,降低响应时间,规避 LLMs 的无效输出

温度 temperature

  • 控制结果的随机性,较高的温度设定会导致输出结果的多样化和不确定性增加
  • 温度较低可以增强 LLMs 对提示词的服从性,偏创意输出的试验可考虑高温度

注意:

  • 当温度设

Read more

多 Agent 设计

多 Agent 设计技巧:

  • 分工合作:大模型负责任务拆分与深度思考,小模型负责子任务执行与广度探索;二者配合,不但能实现并行推理,提高推理的速度和效率,还可以改善最终的任务完成效果
  • 理解 Agent:观察并代入 Agent 的思考模式,并通过精准而有效的提示词来引导 Agent
  • 任务分配:每个子 Agent 都需要有详细的任务目标、输出约束、工具和资源列表、任务边界;在合理的情况下,考虑通过子 Agent 的任务并行来加快效率(比如独立工具的并行调用)
  • 根据查询复杂度调整工作规模:简单的信息收集仅需 1 个智能体,调用 3-10 次工具;直接比较可能需要 2-4 个子智能体,每个调用 1

Read more

25年2季度论文集锦_生物医疗

Read more

永禁文物 195_陕西省馆藏

鎏金舞马衔杯银壶

  • 1970 年陕西西安南郊何家村出土,唐代银器
  • 鎏金舞马衔杯纹壶为白银质地,通高 14.8 厘米,口径 2.3 厘米,腹长径 11.1 厘米、短径 9 厘米,壁厚 0.12 厘米,重 549 克;仿照西域

Read more

20250627 医疗诊断提示词

摘录自 《医疗 CoT 全面分析》

思路分析:

  • 构建 10 位分析师从不同视角(基础推断、环境考虑、患者特征、病理变化、元认知/反思、全面性/避免遗漏、多角度思考、特殊个体因素、解剖定位、罕见病)切入,进行患者的诊断分析
  • 第 11 位分析师进行观点汇总,从信息完备性、信息关联/因果推断、整体视角/动态思维、综合已有信息等角度进行汇总和校对
  • 针对第一轮汇总结果,再进行多轮的讨论与修正,并回顾元认知(防止跑题)形成包含机制+现象+证据三维逻辑的最终完整输出

提示文本:

# 多位分析师 + 多轮迭代 做 病例诊断

你是临床问诊专家,有强大的临床思维和海量的医学疾病的模式识别,你和顶尖医生在

Read more

思维链 CoT 进阶

前置知识:思维链提示 CoT自洽性 self-consistency

思维树 ToT

思维树 ToT (Tree of Thoughts,2023-05):

  • ToT 的核心思想是将问题解决过程视为在思想树中的搜索,其中每个节点代表一个部分解决方案,每个分支代表对解决方案的修改,通过多条推理路径评估实现更优的推理决策

以“24 点数字”游戏为例来说明 ToT 的实现步骤:

  • “24 点数字”是一种简单的数字推理游戏,给定 4 个数字,比如 $[4,9,10,13]$;游戏目标是将 4 个字数进行加减乘除的四

Read more