个人笔记 | Digital Garden | 王半仙

因果效应评估_异质性

868 views

异质性干预效应
线性回归示例
非参数机器学习
因果效应评价

前置知识：回归内生性问题、因果推断入门

异质性干预效应

定义外生变量为 $X$，干预变量为 $T$，评估异质性干预效应的公式如下： $$ \underset{T}{argmax} \ E[Y|X, T] $$

举例来说，$Y$ 可以是每日销售额，$X$ 是背景特征（无法控制的外生变量，比如前几天的平均销售额），而 $T$ 是可以提高销售额的干预变量（比如价格调整、库存水平或营销策略）
通过背景特征 $X$ 来定义个体类型，从而实现干预的异质化，即找到针对个体的最佳干预方式

线性回归示例

估计条件平均干预效应（CATE），以

因果效应评估_准实验

907 views

面板数据模型
合成控制法
断点回归设计
其他准实验方法

前置知识：回归内生性问题、因果推断入门

因果效应评估之准实验

通过研究设计（如事件、断点、工具变量）来识别因果
利用某种政策变化等机制，模拟出一个近似实验的环境
准实验主要用于修正已有数据中不可见的内生性问题
准实验不需要满足条件无混杂性，需要满足满足平行趋势假设

配平法的常见算法：双重差分法 DID、工具变量法 IV、面板数据模型、合成控制、断点回归

面板数据模型

面板数据（Panel Data）：

在多个时期内对同一单元进行重复观测，常见于政策评估/用户追踪
面板数据已经控制了所有随时间保持不变的因素（尤其是混杂因素）

20251207 基于 OpenRouter 数据回顾 AI 2025

581 views

开源模型与闭源模型
推理 Agent 的兴起
AI 模型的主要用途
AI 模型的区域差异
AI 用户的留存分析
AI 成本与用量分析
总结与讨论

OpenRouter 作为流行大模型 API 路由平台

覆盖了 60 多个供应商的 300+多个活跃模型，服务数百万开发者和终端用户
积累了大量 AI 模型的消耗记录，其局限性在于其中超过 50%的使用源自美国境

本文内容主要参考自：基于 OpenRouter 百万亿 token 消耗的 AI 现状研究报告

开源模型与闭源模型

开源模型与闭源模型的绝对市场占比：

深红色表示闭源模型（Closed），橙色表示中国开源模型（Chines

因果效应评估_配平法

864 views

虚拟回归
倾向得分匹配法 PSM
熵平衡
双重稳健估计
双重机器学习

前置知识：回归内生性问题、因果推断入门

因果效应评估之配平法

通过加权或筛选样本，将两组数据进行调整对齐
配平法主要用于解决可观察数据内存在的数据偏差
配平法需要同时满足独立性假设和条件无混杂性

配平法的常见算法：回归调整、倾向得分匹配、熵平衡、双重稳健估计

虚拟回归

虚拟回归（Regression for Dummies）

将是否干预表示为 0-1 虚拟变量，其回归系数描述了组间均值差异
引入虚拟协变量和交互项，也有助于改善线性模型的因果效应评估性能

缺点：建模能力弱，只能捕捉到变量之间的线性关系

异方

生存分析模型

508 views

生存分析入门
Kaplan–Meier 分析
Cox 比例风险回归

生存分析入门

生存分析（Survival analysis），也称失效分析

分析距离特定事件发生前的预期持续时间，例如生物体的死亡和机械系统的失效
起点/起始事件（initial event）：反应生存时间起始特征的事件，如疾病确诊、治疗开始等。
结局/失效事件（failure event）：研究规定的终点结局，比如患者死亡、治疗的结束等
生存时间，起点事件到结局事件之间所经历的时间（也可以是距离等度量方式）
中位生存期/半数生存期：50%个体存活的情况所对应的生存时间

起始事件和失效事件是相对应，并且可应用于不

TimeXer：外生变量增强的 Transformer 时间序列预测

674 views

中文标题：TimeXer：利用 Transformer 进行包含外生变量的时间序列预测
英文标题：TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables
发布平台：NeurIPS
发布日期：2024-11-11
引用量（非实时）：305
- 1 文章萃取
- 2 精读笔记
  - 2.1 算法细节
  - 2.2 实验结论
相关资源

中文标题：TimeXer：利用 Transformer 进行包含外生变量的时间序列

SOFA 新旧评分对比

672 views

呼吸系统
凝血系统
肝脏系统
心血管系统
中枢神经系统
肾脏系统
其他补充说明

前置知识： SOFA评分

SOFA2 评分总结（图源）：

呼吸系统

分值	SOFA 经典版	SOFA2
0	PaO2/FiO2 ≥400mmHg	PaO2/FiO2 >300mmHg
1	PaO2/FiO2 <400	PaO2/FiO2 ≤300
2	PaO2/FiO2 <300	PaO2/FiO2 ≤225
3	PaO2/FiO2 <200 且需机械通气（无创/有创）	PaO2/FiO2 ≤15

20251113 FreshRSS 备份与升级

616 views

备份与还原
启动方式变更
FreshRSS 升级
插件推荐

相关资源：FreshRSS 用户手册、FreshRSS 官方文档、插件汇总

备份与还原

确定 FreshRSS 的数据路径，本人用的是 Docker 默认路径为 /var/www/FreshRSS/data，该路径映射的外部路径为：/var/lib/docker/volumes/freshrss_data/_data
选择需要备份的内容，完整备份可考虑压缩保存整个 data 文件夹；FreshRSS 的全局配置文件是 data/config.php；假设用户名称为 qwq，则用户配置文件是 data/users/qwq/co

ANN 近似最近邻搜索

537 views

LSH
ANNOY
HNSW
FAISS
SPTAG
ScaNN
其他

近似最近邻搜索（APPROXIMATE NEAREST NEIGHBORS，ANN）：

在 KNN 最近邻算法基础上通过近似算法来进行搜索加速
通常以牺牲少量精度为代价，实现巨大的速度提升，返回 K 个最近邻

近似最近邻搜索这类算法也被称为快速最大内积搜索（Maximum Inner Product Search，MIPS）算法；得益于 Agent 的发展，目前的很多 MIPS 算法都成为了 RAG 模块的基础设施，也内置在很多主流向量数据库中；而关于不同 MIPS 算法的横向性能测试结果可参考 ANN B

增强语言模型 ALM

551 views

增强语言模型（Augmented Language Models，ALM）

ALM 指 LLM 使用各种非参数的外部模块/工具，来扩展上下文处理能力
LLM 在事实确认、信息更新、算术推理和程序编译等方面存在客观局限性
LLM 可以通过提示、微调、强化学习等方式优化，来更好地利用外部工具
ALM 常用外部工具：搜索引擎、浏览器、编程工具、其他模型、智能硬件

按照模型增强的方式可大致分为：检索增强、编程增强、工具增强、综合增强

检索增强：检索增强 RAG 和高级 RAG 技术

编程增强：

直接利用 LLM 来生成包含文本和 Python 代码的混合输出
代码交给 Python 解释