分类目录归档：MachineLearning

因果推断

953 views

因果推断基础
因果推断的框架
- 潜在结果框架
- 结构因果模型
因果关系发现算法
因果效应评估算法
因果推断的总结

因果推断基础

辛普森悖论提醒我们在分析数据时要仔细考虑分组和混杂因素的影响，而因果推断的作用就是使用适当的方法识别和控制这些因素，从而可以更好地解释数据中的关系，并做出可靠的结论。

相关性与因果性：

相关性描述了事物之间存在的关联，因果性则代表了事物之间的内在联系
不同于相关性，因果性一般是单向的，即 A 是 B 的因，B 就不应该是 A 的因
传统模型一般学习的只是相关性，这也是导致模型泛化能力不足的重要原因

因果关系的三个阶段（由易到难）：

关联性 Assoc

共形预测 Conformal Prediction

1781 views

算法原理
评价指标
- 适应性评估
- 准确率验证
其他拓展

共形预测（conformal prediction，CP）是一种置信度预测器

给定置信度水平，共形预测能为预测器模型生成具有统计有效性的预测区间
共形预测可以逐类分析，独立保证每个类的错误率，适用于数据偏斜的情况
广泛应用于假设检验，能为机器学习系统的预测提供有保证的不确定性量化
共形预测易于理解和应用，通用性强，适用于不同领域不同类型的预测模型
共形预测的算法相对新颖，相关的开源实现较少，更多的研究停留在学术界

由于翻译用词缺少官方定义，共形预测也称共形推理或保形预测

算法原理

共形预测的一般过程：

根据输入 $x

特征工程_图

865 views

节点中心性度量
集群系数
异构连通子图 Graphlets
WL 图同构检验
参考

前置知识：图论基础

代码实践：图特征工程_Python实现

节点中心性度量

度中心性 (Degrree Centrality)：

用节点的度来描述节点的重要性，即邻接节点数越多的节点越重要
在不同网络间比较时，需要除以网络总节点数进行标准化

特征向量中心性 ( Eigenvector Centrality)： $$ c_v=\frac{1}{\lambda}\sum_{u\in N(v)}c_u $$

节点的重要性取决于邻接节点的重要性之和
其本质对应一个图邻接矩阵的特征向量求解问题

介数中心性

特征选择

762 views

1 常见特征选择方法
2 Relief 特征选择法

1 常见特征选择方法

特征评价指标：信息准则类指标

常用特征选择方法：

基于正则惩罚的特征选择（比如Lasso 回归）
删除方差特别低的特征（sklearn.feature_selection.VarianceThreshold）
删除高相关性的特征（比如计算皮尔逊相关系数矩阵）
单变量特征选择（互信息、方差分析、卡方检验）
基于评价方法的贪婪特征选择（前向/后向搜索）
基于特征重要性的选择（集成树模型、SHAP分析）

2 Relief 特征选择法

Relief（relative features）是一种处理二分类问题的常用特征选

调参与训练

1002 views

1 传统机器学习
- 1.1 XGBoost
2 深度学习
参考

1 传统机器学习

1.1 XGBoost

最常用的10个超参数（原生API，兼容Scikit-learn的API，常见取值范围）：

num_boost_round：训练期间所需要的基学习器数量，默认100；在应对较大数据集时，一般控制在5000~10000左右（影响训练时间的重要因素）；一个常用技巧是先设定一个较高的数值，然后结合early-stopping来获得一个较优的模

模型评价

1681 views

1 分类模型评价

数据偏斜

2132 views

1 数据偏斜概述
2 解决不平衡-重抽样
- 2.1 欠采样
- 2.2 过采样
3 解决不平衡-算法选择
4 解决不平衡-代价敏感
5 用于不平衡数据的评估指标
6 扩展阅读
7 参考资料

1 数据偏斜概述

又称为数据不平衡（imbalanced）问题，指分类任务中不同类别之间的样本数差异过大的情况。数据偏斜常见于医疗诊断、文本分类、金融欺诈、异常检测等领域，一般认为样本比例大于4：1时，便存在样本不平衡的问题，一些极端的场景下，会存在1000：1的样本比例，甚至一个类型只有一个样本的情况

数据偏斜问题的影响：干扰建模过程，错

AutoML 项目

2080 views

1 AutoGluon
2 Optuna
3 TPOT
4 Ray Tune
5 Katib
6 NNI
7 GitHub集锦(20211201)
8 参考

本文罗列了一些热门的自动机器学习项目

1 AutoGluon

AutoGluon 更倾向于使用多模型的 ensemble，利用多层 stacking + k-fold bagging 来实现更好更稳定的模型效果。当然基本的超参优化也是具备的。
自带了一系列的特征工程自动化组件，例如各种缺失值的预处理，日期特征，类别特征，文本特征处理等。但这部分功能相对基础
针对部署时进行优化，比如训练子模型替代多模型；引入模型蒸馏
代码整

自动化调参

2705 views

1 网格搜索
2 随机搜索
3 贝叶斯优化
4 贝叶斯优化进阶
5 其他自动调参方法
补充：常用调参工具
参考

1 网格搜索

网格搜索(Grid Search)会遍历给定参数空间内的所有参数组合，并选择最优的一组，相对于暴力枚举法，有点浪费时间

代码实现参考

2 随机搜索

随机选择(Randomized Search)参数空间内的参数组合，可能有的参数组合不会被选到，效率比网格搜索高

代码实现参考

3 贝叶斯优化

贝叶斯优化(Bayesian Optimization)是一种通用的黑盒优化

损失函数

1692 views

1 损失函数的理解与区分
2 常见损失函数
3 交叉熵
4 Center Loss
5 Ranking Loss
参考

1 损失函数的理解与区分

如何理解并区分误差（error）/损失（loss）/成本（cost）/目标（objective）函数？

误差函数描述的是预测值与真实值的偏差：$y_{pred}-y_{true}$
损失函数是对预测误差的负面影响的量化，比如平方误差损失认为3个单位的误差会导致9个单位的负面影响；损失函数通常是针对单个样本的描述
损失函数是成本函数的一部分，成本函数通常是针对训练集的描述，既包含所有样本的损失，也包含针对模型复杂度的惩罚（正则项）
成本函数是