分类目录归档:学习

TOPSIS 综合评价

TOPSIS (Technique for Order Preference by Similarity to an Ideal Solution) ,也称优劣解距离法,是一种常用的组内综合评价方法,能充分利用原始数据的信息,其结果能精确地反映各评价方案之间的差距

针对多标准/多目标决策问题(MCDM/MCDA),决策者需要面对多种决策标准和可行决策方案,TOPSIS 的作用就是帮助决策者综合考虑多个决策标准,在多个可行决策方案之间找到最优解

TOPSIS 示例:评估 5 所研究生院的教育质量

5 所研究生院的评估数据及其权重如下:

院校 人均专著 $x_1$ (本/人)

Read more

时序差分算法 TD

前置知识:强化学习入门蒙特卡洛法马尔可夫决策过程 MDP

时序差分算法

时序差分(temporal difference,TD)

  • 一种用来估计一个策略的价值函数的方法,结合了蒙特卡洛和动态规划算法的思想
  • 时序差分 vs 蒙特卡洛:都可以从样本数据中学习,不需要事先知道环境;但蒙特卡洛法需要完成整个序列后才能计算得到回报 $G_{t}$,而时序差分法只需要当前步结束即可进行计算
  • 时序差分 vs 动态规划:都可以根据贝尔曼方程来更新当前状态的价值估计

回顾 MDP 中状态价值函数的贝尔曼方程: $$ v_{

Read more

马尔可夫模型

马尔可夫过程

马尔可夫过程(Markov process)是一类具有马尔可夫性质的随机过程

  • 由俄国数学家A.A.马尔可夫于 1907 年提出。该过程具有如下特性:在已知目前状态(现在)的条件下,它未来的演变(将来)不依赖于它以往的演变 (过去 )
  • 例如森林中动物头数的变化构成——马尔可夫过程。在现实世界中,有很多过程都是马尔可夫过程,如液体中微粒所作的布朗运动、传染病受感染的人数、车站的候车人数等

马尔可夫性质(Markov property,MP):如果某一个过程未来某个时刻的状态与过去的状态无关,只由现在的状态决定,那么其具

Read more

马尔可夫决策过程 MDP

前置知识:马尔可夫模型强化学习入门

MDP 的定义

马尔可夫奖励过程(Markov reward process,MRP)

  • 在马尔可夫过程的基础上加入奖励 $R$ 和奖励衰减因子 $\gamma$
  • 马尔可夫奖励过程中时刻 $t$ 的回报 $G_{t}$ 是未来奖励的衰减折现

$$ G_{t}=R_{t}+\gamma R_{t+1}+\gamma^2 R_{t+2}+\dots+\gamma^n R_{t+n} $$

  • 马尔可夫奖励过程中的状态价值函数 $v(s)=E[G_{t}|S_{t}=s]$

Read more

强化学习入门

强化学习的定义

强化学习(reinforcement learning,RL)

  • RL 是 Agent 通过动作与环境交互,从而实现特定目标最优化的一种计算方法
  • Agent 在环境状态为 $S_{t}$ 的情况下产生一个动作决策 $A_{t}$,并将 $A_{t}$ 作用到环境中
  • 然后环境发生相应的改变,并将相应的奖励反馈 $R$ 和下一轮状态 $S_{t+1}$ 传回机器
  • 以上交互是迭代进行的,目标是最大化在多轮交互过程中获得的累积奖励的期望

强化学习的三个基本要素:

  1. 状态 $S$,Agent 需要能感知当前环境的状态;比如 AlphaGo 需要了

Read more

大模型输出配置

输出长度 output length

  • 指定输出文本中的 token 最大长度,一般达到最大 token 时会自动截断
  • 输出长度的设置,并不会导致 LLMs 的输出简洁(可以通过提示工程来实现)
  • 限制最大输出长度,有助于减少能耗,降低响应时间,规避 LLMs 的无效输出

温度 temperature

  • 控制结果的随机性,较高的温度设定会导致输出结果的多样化和不确定性增加
  • 温度较低可以增强 LLMs 对提示词的服从性,偏创意输出的试验可考虑高温度

注意:

  • 当温度设

Read more

多 Agent 设计

多 Agent 设计技巧:

  • 分工合作:大模型负责任务拆分与深度思考,小模型负责子任务执行与广度探索;二者配合,不但能实现并行推理,提高推理的速度和效率,还可以改善最终的任务完成效果
  • 理解 Agent:观察并代入 Agent 的思考模式,并通过精准而有效的提示词来引导 Agent
  • 任务分配:每个子 Agent 都需要有详细的任务目标、输出约束、工具和资源列表、任务边界;在合理的情况下,考虑通过子 Agent 的任务并行来加快效率(比如独立工具的并行调用)
  • 根据查询复杂度调整工作规模:简单的信息收集仅需 1 个智能体,调用 3-10 次工具;直接比较可能需要 2-4 个子智能体,每个调用 1

Read more

思维链 CoT 进阶

前置知识:思维链提示 CoT自洽性 self-consistency

思维树 ToT

思维树 ToT (Tree of Thoughts,2023-05):

  • ToT 的核心思想是将问题解决过程视为在思想树中的搜索,其中每个节点代表一个部分解决方案,每个分支代表对解决方案的修改,通过多条推理路径评估实现更优的推理决策

以“24 点数字”游戏为例来说明 ToT 的实现步骤:

  • “24 点数字”是一种简单的数字推理游戏,给定 4 个数字,比如 $[4,9,10,13]$;游戏目标是将 4 个字数进行加减乘除的四

Read more

提示工程 Prompt

基础提示技巧

一个好的提示包含以下内容:系统提示、角色提示、语境提示、示例提示

提示词基础技巧

  1. 减少不精确的模糊描述
  2. 通过示例明确输出格式
  3. 找一个好的提示词框架

系统提示

系统提示:定义模型的基本功能和总体目标

  • 有助于生成符合特定要求

Read more

Agent 通信协议

MCP 模型上下文协议

MCP 协议基本架构(图源

  • 由 Anthropic 提出,用于标准化 LLMs 与外部系统交互的接口
  • 开发者能以统一的方式将大模型对接到各种数据源和工具
  • MCP 采用了经典的 C/S 架构,包含主机、服务端和客户端三部分

目前 MCP 协议已得到了广泛的生态支持,兼具通用性和灵活性

MCP 的两种模式:

  1. Stdio:主要用在本地服务上,操作本地的软件或者本地的文件
  2. SSE:主要用在远程服务上,比如基于 API 访问谷

Read more