BM25 搜索排序算法

BM25(Best Matching 25),一种经典的信息检索方法

  • BM25 综合考虑了 TF-IDF 和文档长度等信息,计算效率高,实用性强
  • BM25 在信息检索领域使用广泛,是 Elasticsearch 的默认检索方法
  • BM25 的语义理解能力不足,无法有效捕捉词序信息和上下文关系
  • BM25 可以通过调整参数来适用不同的应用场景,但个性化能力有限

TF-IDF

词频 TF(Term Frequency),词语 t 在文档 d 中出现的频率

$$ \text{TF}(t, d) = \frac{\text{词t在文档d中的

Read more

共形预测 Conformal Prediction

共形预测(conformal prediction,CP)是一种置信度预测器

  • 给定置信度水平,共形预测能为预测器模型生成具有统计有效性的预测区间
  • 共形预测可以逐类分析,独立保证每个类的错误率,适用于数据偏斜的情况
  • 广泛应用于假设检验,能为机器学习系统的预测提供有保证的不确定性量化
  • 共形预测易于理解和应用,通用性强,适用于不同领域不同类型的预测模型
  • 共形预测的算法相对新颖,相关的开源实现较少,更多的研究停留在学术界

由于翻译用词缺少官方定义,共形预测也称共形推理或保形预测

算法原理

共形预测的一般过程:

  1. 根据输入 $x

Read more

CS224W 图机器学习16 PART2:量化 GNN 的不确定性

由于本小节为论文研讨课,因此本文将以论文阅读笔记的形式展开

前置知识:了解基本的共形预测 Conformal Prediction 概念与评价方法(覆盖率)

《Uncertainty Quantification over Graph with Conformalized Graph Neural Networks》

摘要:

  • 本文提出了一种共形 GNN(conformalized GNN,简称 CF-GNN),将共形预测扩展到图模型以估计模型预测的不确定性。预定义覆盖率(比如 90%)后,CF-G

Read more

高音量与听力损失

摘录自 《少数派 - 你应该了解的听力测试与保护知识》

根据世界卫生组织 2024 年的报告,不安全的用耳习惯使超过 10 亿青年面临永久性听力损失的风险。

在导致听力损伤的后天因素中,噪声或强声暴露尤为关键:约 16% 的成人听力损失与工作场所的过度噪声暴露有关;12 至 35 岁人群中,有 50% 因在娱乐环境(包括夜店、Livehouse 和演唱会等)中接触不安全音量而面临听力损失风险

高音量与听力损失之间的关系,主要由以下几个变量决定:

  • 音量的大小:音量越大,则可能会在越短的时间内造成永久性的听力损失
  • 暴露的时间:在噪音环境中的时间越长,越容易造成永久性的听力损失

Read more

NEJM医学前沿24年4季度文章集锦

仅搜集收录了部分个人感兴趣的文章,并进行简单记录

1 概念科普

1.1 大语言模型和病历质量下降

2024-11-01 文章链接

  1. LLM 可能会进一步降低病历中的信息质量。高质量记录绝不是对患者诊疗过程的一般文字转录,而是包含了医师推理、患者价值观以及病历中其他地方可能没有体现的临床背景。
  2. 使用 LLM 可能会削弱临床推理能力。有观点认为转录诊疗过程和总结病历是相对低风险的 LLM 应用方式,但持这一观点是因为误解了这些任务的认知复杂性。书写记录既能引发临床医师的推理,又能反映推理的结果。
  3. 走错道路可能会阻碍未来 AI 模型发展

Read more

中国生育成本报告2024版总结

摘录自 《中国生育成本报告2024版 - 育娲人口研究》

  • 全国家庭0-17岁孩子的养育成本平均为53.8万元;0岁至大学本科毕业的养育成本平均为约68万元

按城镇和农村区分:

  • 0-17岁城镇孩子的养育成本平均为66.7万元
  • 0-17岁农村孩子的养育成本平均为36.5万元

按不同省份区分:

  • 上海和北京家庭0-17岁孩子的平均养育成本分别为101万元和93.6万元
  • 相比之下,西藏和青海家庭0-17岁孩子的平均养育成本分别为34.9万元和 37.9 万元

按收入水平区分:

  • 低收入组家庭0-17岁孩子的平均养育成本为125533元,即约12.6万元
  • 中间偏下收入组家庭0-17岁孩子

Read more

CS224W 图机器学习16 PART1:图上下文学习框架

由于本小节为论文研讨课,因此本文将以论文阅读笔记的形式展开

《PRODIGY: Enabling In-context Learning Over Graphs》

摘要:

  • 本文提出了一种名为 PRODIGY(Pretraining Over Diverse In-Context Graph System)的预训练框架,该框架借鉴了大模型的训练思路,先通过图提示(Graph Prompt)来表示图的上下文学习任务,再使用名为邻居匹配(neighbor mat

Read more

AlphaChip:用于布局规划的快速芯片设计

中文标题:用于布局规划的快速芯片设计

英文标题:A graph placement methodology for fast chip design

Read more

芯片入门

芯片是一套实现特定功能的电路,它具有模块化的特点

模块化的作用:

  • 降低开发难度,缩短开发周期
  • 方便厂商快速地进行产品设计和研发

芯片的设计流程:

  • EDA/IP:EDA 工具是用于设计和验证电子系统(如集成电路、印刷电路板等)的软件工具;IP(Intellectual Property)指的是预先设计和验证的功能模块或电路块
  • IC 设计,即集成电路设计。前端设计包括系统架构设计、RTL(Register Transfer Level)设计、功能验证等;后端设计包括布局布线(Place and Route)、时序分析、物理验证等
  • Foundry 指的是晶圆代工厂,主要根据芯片设计版图

Read more

通过深度学习优化血小板输注的个性化风险评估

中文标题:通过个性化深度学习风险评

Read more