分类目录归档:学习

ANN 近似最近邻搜索

近似最近邻搜索(APPROXIMATE NEAREST NEIGHBORS,ANN):

  • KNN 最近邻算法 基础上通过近似算法来进行搜索加速
  • 通常以牺牲少量精度为代价,实现巨大的速度提升,返回 K 个最近邻

近似最近邻搜索这类算法也被称为快速最大内积搜索(Maximum Inner Product Search,MIPS)算法;得益于 Agent 的发展,目前的很多 MIPS 算法都成为了 RAG 模块的基础设施,也内置在很多主流向量数据库中;而关于不同 MIPS 算法的横向性能测试结果可参考 ANN B

Read more

增强语言模型 ALM

增强语言模型(Augmented Language Models,ALM)

  • ALM 指 LLM 使用各种非参数的外部模块/工具,来扩展上下文处理能力
  • LLM 在事实确认、信息更新、算术推理和程序编译等方面存在客观局限性
  • LLM 可以通过提示、微调、强化学习等方式优化,来更好地利用外部工具
  • ALM 常用外部工具:搜索引擎、浏览器、编程工具、其他模型、智能硬件

按照模型增强的方式可大致分为:检索增强、编程增强、工具增强、综合增强

检索增强:检索增强 RAG高级 RAG 技术

编程增强:

  • 直接利用 LLM 来生成包含文本和 Python 代码的混合输出
  • 代码交给 Python 解释

Read more

RRF 检索聚合算法

倒数排名融合(Reciprocal Rank Fusion,RRF)

  • 一种简单有效的多检索结果聚合方法,效果始终优于单一系统
  • RRF 常用于混合检索的场景,比如关键词检索和向量检索的混合

RRF 的核心公式: $$ RRFscore(d\in D) = \Sigma_{r\in R}\frac{1}{k+r(d)} $$

  • 其中 $D$ 表示文档集合,$R$ 是不同检索后的文档排序结果
  • $k$ 是常量,默认为 60;用于减轻异常检索结果中的高排名影响

RRF 的简单示例:

  • 假设文档 docA 在三次不同的检索策略中出现,检索排名分别 1、2、1
  • 则文档 docA 的最终 RRF 得

Read more

高级 RAG 技术

前置知识:检索增强 RAG

相比于朴素 RAG,高级 RAG 在预检索过程(Pre-Retrieval Process) 和 后检索过程(Post-Retrieval Process) 两个阶段引入了一些改进措施,提高检索质量

  • 预检索过程的重点是索引优化与查询优化;前者目的是提高被索引内容的质量,包括检索粒度、索引结构优化、元数据附加、对齐优化和混合检索等操作;后者目的是优化用户的原始问题表述,比如查询重写、查询转换和查询扩展等技术
  • 后检索过程的重点是相关上下文的有效整合;比如重排序,将最相关的信息排在考前的位置;或者上下文压缩,

Read more

检索增强 RAG

上下文学习 ICL 是大模型 RAG 的前提基础

朴素 RAG

RAG(retrieval-augmented-generation):基于信息检索的提示词增强技术

RAG 的一般流程:

  1. 先对文档切分,再借助 Embedding 模型实现知识的向量化存储
  2. 通过余弦相似度等度量标准,检索与查询向量最相似的文档(召回)
  3. 重新排序检索到的文档,并只保留最相关的文档(提高 RAG 的质量)

RAG 的方法选型

  • Embedding 模型推荐参考 MTEB 排行榜,结合个人需求选择合理的模型
  • 检索方案(1)

Read more

Dyna 算法框架

前置知识:强化学习入门Q-Learning

Dyna 框架

Dyna 是一种经典的强化学习算法

  • Dyna 会尝试从环境中学习两个独立模型(1)状态转移模型 $P$,根据当前状态 $s$ 和动作 $a$,预测下一个的状态 $s'$(2)奖励预测模型 $R$,根据当前状态 $s$ 和动作 $a$,预测环境的反馈奖励 $r$
  • Dyna 作为一类算法的总称,可以将基于模型的强化学习与无模型的强化学习进行组合,从而使得策略/价值函数既可以从环境模型中学习,也可以在与真实环境交互中学习,结合二者的优势
  • Dyna 的环境模型一般为查表法或监督学习的预测

Read more

Actor-Critic 算法

前置知识:强化学习入门Deep Q-Learning策略梯度算法

Actor-Critic

Actor-Critic (简称 AC)是一种经典的强化学习框架

  • 结合了策略(Policy Based)和价值(Value Based)
  • Actor 表示策略函数,负责动作生成与环境交互
  • Critic 表示价值函数,负责 Actor 的表现评估和指导

AC 算法的 Actor 策略函数近似 $$ \pi_{\theta}(s,a) = P(a|s,\theta)\approx \pi(a|s) $$

Read more

策略梯度算法

前置知识:强化学习入门Deep Q-Learning

策略梯度算法

策略梯度(Policy Gradient)

  • 一种基于策略(Policy Based)的基础强化学习方法
  • 区分与 TDDQN 等基于价值(Value Based)的方法
  • 策略梯度是一种在线算法,其依赖当前策略采样到的经验数据

基于价值(Value Based)方法的局限性:

  1. 离散动作空间,难以处理连续或高维的动作空间
  2. 受限状态下的问题,可能不存在基于价值的最优解
  3. 基于最大价值的策略为确定性策略,不适合随机策略问题

基于策略的

Read more

Deep Q-Learning

前置知识:强化学习入门时序差分算法 TD

Deep Q-Learning

Deep Q-Learning,简称 DQN

  • DQN 在 Q-Learning 的基础上,添加神经网络 Q 来计算价值函数
  • 网络 Q 的输入为状态向量 $\phi(S)$,输出是所有动作在该状态下的动作价值
  • DQN 通过引入网络 Q 来代替原始 Q-Learning 的 Q 表;解决了Q-Learning 只能适用于离散状态空间的局限性;因此 DQN 可用来解决连续状态下离散动作的问题

DQN 算法步骤

  1. 随机初

Read more

列线图 Nomogram

列线图(Alignment Diagram),又称诺莫图(Nomogram 图)

  • 建立在多因素回归分析的基础上,将多个预测指标进行整合,然后采用带有刻度的线段,按照一定的比例绘制在同一平面上,从而用以表达预测模型中各个变量之间的相互关系
  • 常用于多指标联合诊断或预测疾病发病或进展,也可以用于构建评分指标

示例说明(以泰坦尼克邮轮数据集中,乘客的死亡二分类预测为例):

  • 主要考虑特征为乘客的年龄(age),客舱等级(pclass)和性别(sex)
  • Points 是每一个特征的评分参照,Total Points 是所有特征的汇总评分参照
  • Linear Predictor 是汇总评分的线性映

Read more