分类目录归档：学习

1158 views

PageRank 是早期 Google 搜索的核心算法，决定了搜索结果中的网页展示顺序

PageRank 算法最初用于网页权重的计算，它将每个网作为一个节点，网页间的超链接作为边，而最终的网页 X 权重描述了以 X 为起点，通过超链接进行随机游走 $N$ 次后，再次返回网页 X 的概率。同时为了防止随机游走进入死循环，每次随机游走还有概率 $=\alpha$ 的情况随机跳转到任意网页，不同网页的随机跳转概率是相等的

PageRank 核心思想：

根据网站的外部链接和内部链接的数量和质量衡量网站的价值
如果重要性为 $PR(i)$ 的页面 $i$ 有 $l_i$ 个外链（出度），则每个

Apriori 关联规则算法

发表评论

1263 views

背景故事：啤酒与尿布

Aprior 算法的 3 个关键评价指标：

支持度（Support）：商品 X 和商品 Y 同时在数据集中出现的概率

$$ Support(X,Y) = P(XY) = \frac{number(XY)}{num(All Samples)} $$ 2. 置信度（Confidence）：商品 Y 出现后，商品 X 出现的概率 $$ Confidence(X \Leftarrow Y) = P(X|Y)=P(XY)/P(Y) $$ 3. 提升度（Lift）：商品 X 出现的情况中，商品 Y 也出现的概率 $$ Lift(X \Leftarrow Y) = P(X|Y)

KNN 最近邻算法

发表评论

1014 views

K 近邻算法（k-nearest neighbors, KNN）是一种很基本的机器学习方法

算法步骤：给定样本，寻找最近的 K 个样本进行（分类/回归）预测

KNN的 3 个核心要素：

K 值的选择，较小时容易过拟合；较大时泛化性好，但训练误差大
距离度量方式，比如欧氏距离、曼哈顿距离（常见距离测度）
决策规则，分类问题常用投票法，回归问题常用平均法

KNN 的主要优点：

理论成熟，思想简单，既可以用来做（非线性）分类也可以用来做回归
训练时间复杂度比支持向量机之类的算法低，仅为 O (n)
和朴素贝叶斯之类的算法比，对数据没有假设，准确度高，对异常点不敏感
对于类域的交叉或重叠较多

图特征工程_Python实现

发表评论

1105 views

图的平均度
集群系数
PageRank 值
紧密中心性

前置知识：特征工程_图

依赖环境：networkx

数据和环境准备：

import networkx as nx

G = nx.karate_club_graph()
# 空手道俱乐部 34 名成员的社交网络

图的平均度

def average_degree(num_edges, num_nodes):
    avg_degree = 2*num_edges/num_nodes
    avg_degree = int(round(avg_degree))
    return avg_degree

num_edges

特征工程_图

发表评论

1391 views

节点中心性度量
集群系数
异构连通子图 Graphlets
WL 图同构检验
参考

前置知识：图论基础

代码实践：图特征工程_Python实现

节点中心性度量

度中心性 (Degrree Centrality)：

用节点的度来描述节点的重要性，即邻接节点数越多的节点越重要
在不同网络间比较时，需要除以网络总节点数进行标准化

特征向量中心性 ( Eigenvector Centrality)： $$ c_v=\frac{1}{\lambda}\sum_{u\in N(v)}c_u $$

节点的重要性取决于邻接节点的重要性之和
其本质对应一个图邻接矩阵的特征向量求解问题

介数中心性

PyG-图神经网络构建

发表评论

2674 views

1 快速入门
2 基础案例

PyG (PyTorch Geometric)，基于 PyTorch 编写和训练图神经网络 (GNN)

集成了各种针对图或其他不规则结构的深度学习方法
包括易用小批量加载器，可在许多小型和单个巨型图上运行
多 GPU 支持，torch.compile 支持，DataPipe 支持
内置大量基准数据集、支持神经网络的

NetworkX-复杂网络分析

发表评论

1239 views

1 图的基本操作
2 图的进阶操作

NetworkX 是一个 Python 包，常用于创建、操作和挖掘图/复杂网络

支持以标准和非标准数据格式加载和存储网络
生成多种类型的随机和经典网络；网络可视化
分析网络结构、构建网络模型、设计新的网络算法

官方文档

本教程默认使用 NetworkX=3.2.1

1 图的基本操作

1.1 图的创建与类型

G = nx.Gr

模型融合 ModelMerge

发表评论

3548 views

基本概念
常见融合方法
其他补充
拓展资料

基本概念

模型融合（model merging）：

将多个神经网络模型进行合并，得到一个融合模型
优势在于节省计算/时间成本、无需训练数据（隐私保护）
有时能取得类似多任务学习的效果，也可能具备更好的泛化性

思考：如何验证模型融合的合理性？（此处

图表示学习

发表评论

1353 views

图嵌入表示
- DeepWalk
- node2vec
- LINE
- struc2vec
图神经网络

图表示学习方法一般包括图嵌入表示和图神经网络

图嵌入表示（Node Embedding）为每个节点学习一个嵌入表示（低维稠密向量），使得在原始网络中相似的节点，它们的嵌入表示也更为相似
图神经网络（Graph Neural Networks）通过聚合邻域节点的信息来生成节点的表示

图嵌入表示

基于随机游走的图嵌入经典方法：

等长度、无偏的随机游走：DeepWalk (2014 KDD Perozzi et al.)
有偏

循环神经网络

发表评论

1178 views

RNN
GRU
LSTM

循环神经网络（RNNs）：具有隐状态、不同层参数共享的神经网络

常见的三种基础 RNNs ：RNN、GRU、LSTM

RNN

隐变量模型：使用隐状态 $h_{t-1}$ 存储前 $t-1$ 步的序列信息 $$P(x_t|x_{t-1},...,x_1)\approx P(x_t|h_{t-1})$$ $$h_t=f(x_t,h_{t-1})$$ 循环神经网络（recurrent neural networks，RNNs）是具有隐状态的神经网络

假设时刻 $t$ 的输入为 $X_t \in \mathbb{R}^{n\times d}$，对应的权重参数为 $W

个人笔记

Digital Garden | 王半仙

图的平均度

节点中心性度量

1 图的基本操作

1.1 图的创建与类型

基本概念

图嵌入表示

RNN