分类目录归档:学习

SHAP-模型可解释性

1 SHAP概述

SHAP (SHapley Additive explanation)是一种解释任何机器学习模型输出的博弈论方法

SHAP库的特性:

  • 支持任意机器学习的可解释输出与可视化展示
  • 针对集成树和神经网络类模型进行特定优化与加速
  • 能解释每一个样本的每一

Read more

pandas进阶技巧

1 常见 Pandas 参数配置

pd.set_option('display.max_rows', 5) # 最大显示行数

pd.set_option('display.max_columns', 15) # 最大显示列数

pd.set_option('display.max_colwidth'

Read more

模型评价

1 分类模型评价

Read more

数据偏斜

1 数据偏斜概述

又称为数据不平衡(imbalanced)问题,指分类任务中不同类别之间的样本数差异过大的情况。数据偏斜常见于医疗诊断、文本分类、金融欺诈、异常检测等领域,一般认为样本比例大于4:1时,便存在样本不平衡的问题,一些极端的场景下,会存在1000:1的样本比例,甚至一个类型只有一个样本的情况

数据偏斜问题的影响:干扰建模过程,错

Read more

Linux环境变量

1 理解环境变量

在所有 UNIX 、 类Unix系统和Windows系统中, 每个进程都有其特定的一组环境变量(Windows系统中的环境变量在命名、语法和用法上略有区别)

环境变量是进程运行的环境的一部分,子进程一般会继承其父进程的运行环境(除非手动的修改或删除),环境变量也是动态的,为进程提供了更多的灵活性

2 环境变量类型

临时性VS永久性

  • 通过export命令导入的环境变量是临时的,会立即生效但仅对当前终端有效
  • 通过修改配置文件导入的环境变量是永久的,但是需要通过命令sour

Read more

常见配置文件格式

1 INI ⭐⭐⭐

INI:Initialization file的格式,最初为Windows系统中的基础配置文件格式

INI格式作为早期常见的配置文件格式,通常由节(Section)、键(key)和值(value)组成

缺点:不适合复杂的格式或多嵌套的情况

[localdb]  
host = 127.0.0.1  
user = root  
password = 123456  
port = 3306  
database = mysql

Python内置con

Read more

图像几何变换

1 图像几何变换

将一幅图像中的坐标位置映射到另一幅图像中的新坐标位置

2D几何变换分类:

  1. 刚体变换:主要操作包括平移+旋转,变换前后的欧式距离不变,自由度为3
  2. 相似变换:主要操作包括平移+旋转+缩放,具有保角性,不同点之间的距离比保持不变,自由度为

Read more

自编码器

自编码器,一种借助神经网络结构进行无监督学习的算法,常用于降维

自编码器主要有两个部分组成

  1. 编码器,用于将输入数据编码为低维稠密向量
  2. 解码器,根据低维稠密向量解码还原输入向量

最简单的自编码器形式是一个前馈无循环的神经网络,如下所示:

(图源:维基百科-自编码器)

自编码器VS主成分分析(PCA)

  • 自编码器是非线性降维,PCA是线性降维,前者效果一般更好
  • 前者通过梯度下降法训练,训练速度慢且不容易收敛
  • 后者通过特征分解直接计算,计算成本低效率高

#自编码器

Read more

主成分分析 PCA

主成分分析(Principal components analysis,PCA),一种常用的线性降维方法

算法步骤:

  1. 构建数据的协方差矩阵,并进行特征分解
  2. 特征向量描述的数据的主成分,特征值描述这一成分对应的权重
  3. 通过截断特征值较低的部分,保留数据集当中对方差贡献最大的特征
  4. 最终得到的降维特征无共线性(正交),但解释性差

图像理解:

(图源:维基百科-主成分分析)

  • 上图为二元高斯分布(正态分布),均值为$(1,3)$,方差为$(0.878,0.478)$
  • 黑色向量的方向描述的是协方差矩阵对应的特征向量
  • 黑色向量的长度描述的是特征向量对应的特征值

PCA 的优缺点分析:

  • 计算简单

Read more

SIFT算法

尺度不变特征变换匹配算法(Scale Invariant Feature Transform 简称 SIFT)

SIFT算法常用来提取用于描述影像中的局部性特征,算法主要从空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量

算法过程:

  1. 对图像进行不同尺度的高斯模糊和降采样,构建高斯金字塔
  2. 借助高斯差分函数(DOG 算子)代替微分检测离散空间的极值,作为兴趣点
  3. 通过拟合三维二次函数与插值,排除不显著与边缘的兴趣点,保留关键点
  4. 采集关键点在高斯金字塔邻域内像素的梯度与方向,分配主方向给关键点
  5. 保留峰值大于主方向峰值80%的方向作为该关键点的辅方向,增强匹配的鲁棒性
  6. 对关键点建立向量描述(

Read more