分类目录归档:学习 | Digital Garden

分类目录归档：学习

谱聚类

发表评论

2004 views

1 算法概况
2 算法细节
3 算法分析
4 参考文献

1 算法概况

谱聚类（spectral clustering）：一种基于图的聚类算法

前置知识：图论基础概念、图论基础#3.1 理解拉普拉斯矩阵

核心思想：将数据转化为图的形式，距离近的数据间对应的边权重高，距离远的数据间对应的边权重低。之后通过切图的方式，使得不同子图间的边权值和尽可能低，子图内部的边权值和尽可能高，从而达到聚类的目的

2 算法细节

2.1 数据转图

核心思想：把每个样本看作一个节点，然后构建任意两点$(x_i,x_j)$间权重边$w_{ij}$

方法1

正则表达式

发表评论

2951 views

1 概念理解
2 正则入门
3 常用技巧
- 3.1 手册速查
- 3.2 多模式组合-或与非
4 在Python中使用
5 正则进阶
6 填字游戏

1 概念理解

正则表达式（Regular Expression，简写为regex、或RE）是一种描述句法规则的字符串，常用来匹配符合某个模式（pattern）的文本，以实现针对特定文本的检索（search，findall）、替换（replace）等目的。

常见应用：文本/文件查找、数据/网页清洗、非格式化数据转格式化

在线测试：https://www.mklab.cn/utils/regex

2 正则入门

正则表达式30分钟入门教程

3 常

图论基础

发表评论

2582 views

1 基础概念
2 常见类型
3 图论进阶
参考

图论起源：柯尼斯堡七桥问题

1 基础概念

图 (graph) 常用$G=(V,E)$表示，其中$V$表示顶点/节点的集合，$E$表示边的集合

相邻的 (adjacent)/关联的 (incident)

边两端的顶点和边的关系是关联的或相邻的
通过边相连接的两个顶点之间的关系是相邻的

顶点的度 (degree)：与该顶点关联的边的条数。

对于有向图

拟牛顿类算法

发表评论

2947 views

1 牛顿迭代法
- 1.1 收敛性分析
- 1.2 优缺点分析
2 拟牛顿类算法
- 2.1 BFGS算法
- 2.2 其他拟牛顿类算法
参考

在最优化问题的求解过程中常利用到函数梯度及其高阶信息

这类算法最常见的就是梯度下降法和牛顿迭代法
梯度下降考虑了函数的一阶导数, 是一种一阶优化方法
牛顿算法考虑了函数的二阶偏导, 是一种二阶优化方法

1 牛顿迭代法

牛顿法（Newton's method）又称为牛顿-拉弗森方法（Newton-Raphson method）

牛顿法借助泰勒级数的低阶展开，寻找方程$f(x)=0$的根（因此也被称为切线法）

牛顿法计算步骤：

随机初始化$x=x

SHAP-模型可解释性

发表评论

10750 views

1 SHAP概述
2 入门案例
3 常用绘图
4 进阶技巧

1 SHAP概述

SHAP (SHapley Additive explanation)是一种解释任何机器学习模型输出的博弈论方法

SHAP库的特性：

支持任意机器学习的可解释输出与可视化展示
针对集成树和神经网络类模型进行特定优化与加速
能解释每一个样本的每一

pandas进阶技巧

发表评论

1637 views

1 常见 Pandas 参数配置
2 Series 与 DataFrame 的互转
3 减少类别型数据的内存消耗
4 警惕 object 类型陷阱
5 基于范围条件进行表连接
6 处理 SettingWithCopyWarning 问题
参考

1 常见 Pandas 参数配置

pd.set_option('display.max_rows', 5) # 最大显示行数

pd.set_option('display.max_columns', 15) # 最大显示列数

pd.set_option('display.max_colwidth'

模型评价

发表评论

2279 views

数据偏斜

发表评论

2682 views

1 数据偏斜概述
2 解决不平衡-重抽样
- 2.1 欠采样
- 2.2 过采样
3 解决不平衡-算法选择
4 解决不平衡-代价敏感
5 用于不平衡数据的评估指标
6 扩展阅读
7 参考资料

1 数据偏斜概述

又称为数据不平衡（imbalanced）问题，指分类任务中不同类别之间的样本数差异过大的情况。数据偏斜常见于医疗诊断、文本分类、金融欺诈、异常检测等领域，一般认为样本比例大于4：1时，便存在样本不平衡的问题，一些极端的场景下，会存在1000：1的样本比例，甚至一个类型只有一个样本的情况

数据偏斜问题的影响：干扰建模过程，错

Linux环境变量

发表评论

1692 views

1 理解环境变量
2 环境变量类型
3 环境变量语法
4 常见环境变量
5 其他特殊情况
6 参考

1 理解环境变量

在所有 UNIX 、类Unix系统和Windows系统中, 每个进程都有其特定的一组环境变量（Windows系统中的环境变量在命名、语法和用法上略有区别）

环境变量是进程运行的环境的一部分，子进程一般会继承其父进程的运行环境（除非手动的修改或删除），环境变量也是动态的，为进程提供了更多的灵活性

2 环境变量类型

临时性VS永久性

通过export命令导入的环境变量是临时的，会立即生效但仅对当前终端有效
通过修改配置文件导入的环境变量是永久的，但是需要通过命令sour

常见配置文件格式

发表评论

1889 views

1 INI ⭐⭐⭐
2 XML ⭐⭐⭐
3 JSON ⭐⭐⭐⭐
4 YAML ⭐⭐⭐⭐⭐
5 TOML ⭐⭐⭐⭐⭐

1 INI ⭐⭐⭐

INI：Initialization file的格式，最初为Windows系统中的基础配置文件格式

INI格式作为早期常见的配置文件格式，通常由节（Section）、键（key）和值（value）组成

缺点：不适合复杂的格式或多嵌套的情况

[localdb]  
host = 127.0.0.1  
user = root  
password = 123456  
port = 3306  
database = mysql

Python内置con

个人笔记

Digital Garden | 王半仙

1 算法概况

2 算法细节

2.1 数据转图

1 概念理解

2 正则入门

3 常

1 基础概念

1 牛顿迭代法

1 SHAP概述

1 常见 Pandas 参数配置

1 数据偏斜概述

1 理解环境变量

2 环境变量类型

1 INI ⭐⭐⭐