1 SHAP概述
SHAP (SHapley Additive explanation)是一种解释任何机器学习模型输出的博弈论方法
SHAP库的特性:
- 支持任意机器学习的可解释输出与可视化展示
- 针对集成树和神经网络类模型进行特定优化与加速
- 能解释每一个样本的每一
分类目录归档:学习
SHAP (SHapley Additive explanation)是一种解释任何机器学习模型输出的博弈论方法
SHAP库的特性:
pd.set_option('display.max_rows', 5) # 最大显示行数
pd.set_option('display.max_columns', 15) # 最大显示列数
pd.set_option('display.max_colwidth'又称为数据不平衡(imbalanced)问题,指分类任务中不同类别之间的样本数差异过大的情况。数据偏斜常见于医疗诊断、文本分类、金融欺诈、异常检测等领域,一般认为样本比例大于4:1时,便存在样本不平衡的问题,一些极端的场景下,会存在1000:1的样本比例,甚至一个类型只有一个样本的情况
数据偏斜问题的影响:干扰建模过程,错
在所有 UNIX 、 类Unix系统和Windows系统中, 每个进程都有其特定的一组环境变量(Windows系统中的环境变量在命名、语法和用法上略有区别)
环境变量是进程运行的环境的一部分,子进程一般会继承其父进程的运行环境(除非手动的修改或删除),环境变量也是动态的,为进程提供了更多的灵活性
临时性VS永久性
export命令导入的环境变量是临时的,会立即生效但仅对当前终端有效sourINI:Initialization file的格式,最初为Windows系统中的基础配置文件格式
INI格式作为早期常见的配置文件格式,通常由节(Section)、键(key)和值(value)组成
缺点:不适合复杂的格式或多嵌套的情况
[localdb]
host = 127.0.0.1
user = root
password = 123456
port = 3306
database = mysql
Python内置con
将一幅图像中的坐标位置映射到另一幅图像中的新坐标位置
2D几何变换分类:
主成分分析(Principal components analysis,PCA),一种常用的线性降维方法
算法步骤:
图像理解:
(图源:维基百科-主成分分析)
PCA 的优缺点分析:
尺度不变特征变换匹配算法(Scale Invariant Feature Transform 简称 SIFT)
SIFT算法常用来提取用于描述影像中的局部性特征,算法主要从空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量
算法过程: