分类目录归档:algorithm

生存分析模型

生存分析入门

生存分析(Survival analysis),也称失效分析

  • 分析距离特定事件发生前的预期持续时间,例如生物体的死亡和机械系统的失效
  • 起点/起始事件(initial event):反应生存时间起始特征的事件,如疾病确诊、治疗开始等。
  • 结局/失效事件(failure event):研究规定的终点结局,比如患者死亡、治疗的结束等
  • 生存时间,起点事件到结局事件之间所经历的时间(也可以是距离等度量方式)
  • 中位生存期/半数生存期:50%个体存活的情况所对应的生存时间

起始事件和失效事件是相对应,并且可应用于不

Read more

ANN 近似最近邻搜索

近似最近邻搜索(APPROXIMATE NEAREST NEIGHBORS,ANN):

  • KNN 最近邻算法 基础上通过近似算法来进行搜索加速
  • 通常以牺牲少量精度为代价,实现巨大的速度提升,返回 K 个最近邻

近似最近邻搜索这类算法也被称为快速最大内积搜索(Maximum Inner Product Search,MIPS)算法;得益于 Agent 的发展,目前的很多 MIPS 算法都成为了 RAG 模块的基础设施,也内置在很多主流向量数据库中;而关于不同 MIPS 算法的横向性能测试结果可参考 ANN B

Read more

RRF 检索聚合算法

倒数排名融合(Reciprocal Rank Fusion,RRF)

  • 一种简单有效的多检索结果聚合方法,效果始终优于单一系统
  • RRF 常用于混合检索的场景,比如关键词检索和向量检索的混合

RRF 的核心公式: $$ RRFscore(d\in D) = \Sigma_{r\in R}\frac{1}{k+r(d)} $$

  • 其中 $D$ 表示文档集合,$R$ 是不同检索后的文档排序结果
  • $k$ 是常量,默认为 60;用于减轻异常检索结果中的高排名影响

RRF 的简单示例:

  • 假设文档 docA 在三次不同的检索策略中出现,检索排名分别 1、2、1
  • 则文档 docA 的最终 RRF 得

Read more

列线图 Nomogram

列线图(Alignment Diagram),又称诺莫图(Nomogram 图)

  • 建立在多因素回归分析的基础上,将多个预测指标进行整合,然后采用带有刻度的线段,按照一定的比例绘制在同一平面上,从而用以表达预测模型中各个变量之间的相互关系
  • 常用于多指标联合诊断或预测疾病发病或进展,也可以用于构建评分指标

示例说明(以泰坦尼克邮轮数据集中,乘客的死亡二分类预测为例):

  • 主要考虑特征为乘客的年龄(age),客舱等级(pclass)和性别(sex)
  • Points 是每一个特征的评分参照,Total Points 是所有特征的汇总评分参照
  • Linear Predictor 是汇总评分的线性映

Read more

TOPSIS 综合评价

TOPSIS (Technique for Order Preference by Similarity to an Ideal Solution) ,也称优劣解距离法,是一种常用的组内综合评价方法,能充分利用原始数据的信息,其结果能精确地反映各评价方案之间的差距

针对多标准/多目标决策问题(MCDM/MCDA),决策者需要面对多种决策标准和可行决策方案,TOPSIS 的作用就是帮助决策者综合考虑多个决策标准,在多个可行决策方案之间找到最优解

TOPSIS 示例:评估 5 所研究生院的教育质量

5 所研究生院的评估数据及其权重如下:

院校 人均专著 $x_1$ (本/人)

Read more

流形学习降维 UMAP

UMAP 算法

  • 全称为均匀流形近似与投影,Uniform Manifold Approximation and Projection
  • UMAP 是一种基于黎曼几何和代数拓扑理论框架的数据降维与可视化算法
  • UMAP 能同时捕捉数据的局部和全局结构,可拓展性强,对嵌入维度没有限制
  • MAP 不具备PCA 或因子分析等线性技术可以提供的解释性(因子载荷)

UMAP 定义的概念解释与补充:

  1. Uniform 均匀假设:通过空间的扭曲,对样本稀疏/密集的位置进行收缩或拉伸
  2. Manifold 流形:一种拓扑空间,每个点的附近局部类似于欧几里得空间
  3. Approximation 近似:用一组有限的样本组

Read more

t-SNE 降维可视化

t-SNE 算法

  • 全称为 t 分布-随机邻近嵌入(t-distributed Stochastic Neighbor Embedding)
  • 该算法将高维空间中的数据映射到低维空间中,并保留数据集的局部特性
  • t-SNE 算法能够捕捉数据间的非线性关系,数据可视化效果好,常用于探索性数据分析
  • t-SNE 算法的缺点主要是占用内存较多、运行时间长,容易丢失大规模信息 (集群间关系)

算法过程概述:

  1. 计算原始高维空间中数据点之间的相似度:对于样本 $i$,算法会使用以 $i$ 为中心的高斯分布来计算其他数据点的条件概率 $P_{j|i}$,进而得到样本 $i$ 和样本 $j$ 在高维原

Read more

调查问卷分析

调查问卷分析的一般流程:

  1. 初步设计调查问卷并严格评估合理性,比如文献研究,对象访谈,Delphi 专家函询
  2. 针对少量人群(40~60 人)展开预调查,了解调查问卷设置条目的合理性,完整性和可理解性
  3. 确保预调查结果质量,包括调查内容审核录入与信效度分析(此步骤也适用于正式调研阶段)
  4. 估计样本量,确定调查人群,完成调查员培训,分配调查任务并展开具体的正式调查
  5. 对调查结果进行数据分析,包括分布描述,独立性检验,方差分析,相关性分析,多因素分析等
  6. 根据初步分析结果,进行整理和深入的分析,得到可验证的结果,最后撰写调查报告

De

Read more

LSH 局部敏感性哈希

LSH(locality sensitivity Hashing,局部敏感性哈希)算法

  • 一种从海量数据中进行相似性搜索的算法
  • 常用于文本查重、图像识别、推荐系统和搜索引擎

以相似文档检索为例,说明 LSH 的算法过程

  1. Shingling,文档进行向量化表示

    • 统计 k 个文档中连续出现的 token(字符或单词)
    • 按照 one_hot 的形式对文档进行向量化的矩阵表示
    • 每一列表示一个文档,每一行表示文档的信息矩阵
  2. Min-Hashing,对文档信息进行降维

    • 依次对文档矩阵的每一列进行重排序
    • 选择第一个非 0 行的行号作为的最小哈希值
    • 重复多次,得到若干个最小哈希组成的文档矩阵

Read more

BM25 搜索排序算法

前置知识:1_study/DeepLearning/基础神经网络/词嵌入表示 Embeddings#TF-IDF

BM25(Best Matching 25),一种经典的信息检索方法

  • BM25 综合考虑了 TF-IDF 和文档长度等信息,计算效率高,实用性强
  • BM25 在信息检索领域使用广泛,是 Elasticsearch 的默认检索方法
  • BM25 的语义理解能力不足,无法有效捕捉词序信息和上下文关系
  • BM25 可以通过调整参数来适用不同的应用场景,但个性化能力有限

BM25 算法

给定查询 $Q={q_1,..,q_i,...,q_n}$ 和文档

Read more