分类目录归档:学习

Pydantic 数据验证与转换

Pydantic 是目前最流行的 Python 数据验证工具

  • Python 作为一种动态类型语言,在开发和易用性上存在优势
  • 因此也需要对程序进行功能更强大的类型检查和数据验证

Pydantic 的特点

  1. 自定义与扩展:可用于任意 Python 对象的数据类型验证,支持嵌套结构
  2. 验证的灵活性:类型丰富,验证的时间点灵活,严格模式 vs 宽松模式
  3. 序列化:Pydantic 对象支持序列化和反序列化为字典和 JSON 字符串
  4. 高性能:核心验证逻辑基于 Rust 编写,性能出色且可靠,

Read more

调查问卷分析

调查问卷分析的一般流程:

  1. 初步设计调查问卷并严格评估合理性,比如文献研究,对象访谈,Delphi 专家函询
  2. 针对少量人群(40~60 人)展开预调查,了解调查问卷设置条目的合理性,完整性和可理解性
  3. 确保预调查结果质量,包括调查内容审核录入与信效度分析(此步骤也适用于正式调研阶段)
  4. 估计样本量,确定调查人群,完成调查员培训,分配调查任务并展开具体的正式调查
  5. 对调查结果进行数据分析,包括分布描述,独立性检验,方差分析,相关性分析,多因素分析等
  6. 根据初步分析结果,进行整理和深入的分析,得到可验证的结果,最后撰写调查报告

De

Read more

注意力机制进阶

前置知识: 10.《动手学深度学习》注意力机制

普通线性注意力

原始 Tansformer(左) VS 线性 Tansformer(右):

  • N:序列长度,在自然语言处理任务中,指句子中 Token 或词的数量。
  • d:特征维度,即每个元素(如单词的词向量)的维度。
  • O(N²d)、O(Nd²) :计算复杂度。大 O 描述了计算量随输入序列变长的增长速度,如 O(N²d) 表示计算量与 N² 和 d 成正比 。
  • Q(Query):“查询” 矩阵,用于在自注意力机制中向其他元素询问相关

Read more

上下文学习 ICL

大语言模型(LLMs)的上下文学习:经过预训练的 LLMs 能根据文本提示或任务示例来直接对下游任务进行预测,而无需更新模型权重,这种能力也被称为上下文学习(in-context learning,ICL)或语境学习

简单来说,ICL 就是在不更新模型参数的前提下,通过输入经典示例作为提示来增强模型的能力

以情感分析为例,来说明 ICL 的一般流程(图源):

  • ICL 需要一些示例来形成一个用于情景演示的上下文,作为提示输入来增强 LLMs
  • ICL 示例一般用自然语言模板编写,并拼接真实的输入查询(Text)与结果(Label)

ICL 的分类:

  • Few-shot learning,

Read more

LSH 局部敏感性哈希

LSH(locality sensitivity Hashing,局部敏感性哈希)算法

  • 一种从海量数据中进行相似性搜索的算法
  • 常用于文本查重、图像识别、推荐系统和搜索引擎

以相似文档检索为例,说明 LSH 的算法过程

  1. Shingling,文档进行向量化表示

    • 统计 k 个文档中连续出现的 token(字符或单词)
    • 按照 one_hot 的形式对文档进行向量化的矩阵表示
    • 每一列表示一个文档,每一行表示文档的信息矩阵
  2. Min-Hashing,对文档信息进行降维

    • 依次对文档矩阵的每一列进行重排序
    • 选择第一个非 0 行的行号作为的最小哈希值
    • 重复多次,得到若干个最小哈希组成的文档矩阵

Read more

TabPFN 表格数据基础大模型

TabPFN 的主要特点:

  • 一种面向小规模表格数据(样本量<=10000)的预训练 Transformer 模型
  • 不同与以往基于 X 预测 Y 的传统模型,TabPFN 更类似于 AutoML 或者元学习的思路,其先基于真

Read more

麻醉评估指标

术前评估

ASA 术前麻醉评分

ASA 分级标准,指的是美国麻醉医师协会(ASA)于麻醉前根据

Read more

因果推断

因果推断基础

辛普森悖论 提醒我们在分析数据时要仔细考虑分组和混杂因素的影响,而因果推断的作用就是使用适当的方法识别和控制这些因素,从而可以更好地解释数据中的关系,并做出可靠的结论。

相关性与因果性:

  • 相关性描述了事物之间存在的关联,因果性则代表了事物之间的内在联系
  • 不同于相关性,因果性一般是单向的,即 A 是 B 的因,B 就不应该是 A 的因
  • 传统模型一般学习的只是相关性,这也是导致模型泛化能力不足的重要原因

因果关系的三个阶段(由易到难):

Read more

贝叶斯神经网络 BNN

前置知识:贝叶斯算法高斯过程回归

BNN 的定义

贝叶斯神经网络(Bayesian neural networks, BNNs):

  • 神经网络中的可训练参数,即权重(weight)和偏置(bias)都表示为一个分布
  • 一种最简单的 BNN 就是将模型参数看作服从均值为 $\mu$,方差为 $\delta$ 的高斯分布;考虑到中心极限定理的存在,一般认为模型参数符合高斯分布是一种合理的假设
  • 在预测时,BNN 会从每个高斯分布采样,得到一个确定的神经网络,然后用于预测;也可以对参数多次采样后分别进行预测,然后将多次预测结果进行汇总(类

Read more

术后谵妄 POD

谵妄的定义

谵妄的定义:POD 是一种急性发作的、暂时性脑功能异常。POD 多数发生在术后 1 周内, 以注意力不集中、意识水平变化和认知功能急性改变为特征。POD 可增加患者术后其他并发症发生率、延长住院时间、增加医疗费用和 30d 再人院率, 从而影响患者预后。

谵妄的常见临床表现:

  1. 注意力障碍: 患者对各种刺激的警觉性及指向性下降, 如注意力难唤起、表情茫然或注意力不能集中
  2. 意识水平紊乱: 表现为对周围环境认识的清晰度下降或出现不同程度的木僵或昏迷
  3. 认知功能障碍: 是 POD 最常见的表现之一,

Read more