1 算法概况
谱聚类(spectral clustering):一种基于图的聚类算法
前置知识:图论基础概念、图论基础#3.1 理解拉普拉斯矩阵
核心思想:将数据转化为图的形式,距离近的数据间对应的边权重高,距离远的数据间对应的边权重低。之后通过切图的方式,使得不同子图间的边权值和尽可能低,子图内部的边权值和尽可能高,从而达到聚类的目的
2 算法细节
2.1 数据转图
核心思想:把每个样本看作一个节点,然后构建任意两点$(x_i,x_j)$间权重边$w_{ij}$
方法1
分类目录归档:学习
谱聚类(spectral clustering):一种基于图的聚类算法
前置知识:图论基础概念、图论基础#3.1 理解拉普拉斯矩阵
核心思想:将数据转化为图的形式,距离近的数据间对应的边权重高,距离远的数据间对应的边权重低。之后通过切图的方式,使得不同子图间的边权值和尽可能低,子图内部的边权值和尽可能高,从而达到聚类的目的
核心思想:把每个样本看作一个节点,然后构建任意两点$(x_i,x_j)$间权重边$w_{ij}$
方法1
正则表达式(Regular Expression,简写为regex、或RE)是一种描述句法规则的字符串,常用来匹配符合某个模式(pattern)的文本,以实现针对特定文本的检索(search,findall)、替换(replace)等目的。
常见应用:文本/文件查找、数据/网页清洗、非格式化数据转格式化
在线测试:https://www.mklab.cn/utils/regex
图论起源:柯尼斯堡七桥问题
图 (graph) 常用$G=(V,E)$表示,其中$V$表示顶点/节点的集合,$E$表示边的集合
相邻的 (adjacent)/关联的 (incident)
顶点的度 (degree):与该顶点关联的边的条数。
在最优化问题的求解过程中常利用到函数梯度及其高阶信息
牛顿法(Newton's method)又称为牛顿-拉弗森方法(Newton-Raphson method)
牛顿法借助泰勒级数的低阶展开,寻找方程$f(x)=0$的根(因此也被称为切线法)
牛顿法计算步骤:
SHAP (SHapley Additive explanation)是一种解释任何机器学习模型输出的博弈论方法
SHAP库的特性:
pd.set_option('display.max_rows', 5) # 最大显示行数
pd.set_option('display.max_columns', 15) # 最大显示列数
pd.set_option('display.max_colwidth'
又称为数据不平衡(imbalanced)问题,指分类任务中不同类别之间的样本数差异过大的情况。数据偏斜常见于医疗诊断、文本分类、金融欺诈、异常检测等领域,一般认为样本比例大于4:1时,便存在样本不平衡的问题,一些极端的场景下,会存在1000:1的样本比例,甚至一个类型只有一个样本的情况
数据偏斜问题的影响:干扰建模过程,错
在所有 UNIX 、 类Unix系统和Windows系统中, 每个进程都有其特定的一组环境变量(Windows系统中的环境变量在命名、语法和用法上略有区别)
环境变量是进程运行的环境的一部分,子进程一般会继承其父进程的运行环境(除非手动的修改或删除),环境变量也是动态的,为进程提供了更多的灵活性
临时性VS永久性
export
命令导入的环境变量是临时的,会立即生效但仅对当前终端有效sour
INI:Initialization file的格式,最初为Windows系统中的基础配置文件格式
INI格式作为早期常见的配置文件格式,通常由节(Section)、键(key)和值(value)组成
缺点:不适合复杂的格式或多嵌套的情况
[localdb]
host = 127.0.0.1
user = root
password = 123456
port = 3306
database = mysql
Python内置con