1 深度学习基础
2 图神经网络的难点
图数据的复杂性:
- 存在任意大小和复杂的拓扑结构(不存在网格那样的空间局部性)
- 没有固定的节点顺序或参考点;通常是动态的并且具有多模式特征
直接将邻接矩阵或节点特征输入到传统神经网络的问题:
- $O(|V|)$ 级参数量,难以适用节点数较多的网络
- 无法适用不同尺寸的图/网络,传统网络对节点顺序敏感
置换不变性 vs 置换等价性
- 如果 $f(T(x))=f(x)$,则函数 $f(x)$ 对
作者文章归档:王半仙
图数据的复杂性:
直接将邻接矩阵或节点特征输入到传统神经网络的问题:
置换不变性 vs 置换等价性
2006 年 12 月,国际会议 IEEE International Conference on Data Mining(ICDM)评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.
PageRank 是早期 Google 搜索的核心算法,决定了搜索结果中的网页展示顺序
PageRank 核心思想:
$$PR(j) = \sum_{i \rightarrow j} \frac{PR(i)}{l_i}$$
上式最大的问题在于忽略了"不存在外链的特殊页面"
因此 PageRank 算法引入了阻尼系
背景故事:啤酒与尿布
Aprior 算法的 3 个关键评价指标:
$$ Support(X,Y) = P(XY) = \frac{number(XY)}{num(All Samples)} $$ 2. 置信度(Confidence):商品 Y 出现后,商品 X 出现的概率 $$ Confidence(X \Leftarrow Y) = P(X|Y)=P(XY)/P(Y) $$ 3. 提升度(Lift):商品 X 出现的情况中,商品 Y 也出现的概率 $$ Lift(X \Leftarrow Y) = P(X|Y)
“啤酒与尿布”,购物篮分析的经典案例
该故事据传来自20世纪90年代的美国沃尔玛超市的销售数据分析:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中
这种独特的销售现象引起了管理人员的注意,其背后是美国育婴家庭的分工习惯:母亲一般在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。
沃尔玛发现了这一独特的现象,并在卖场尝试将啤酒与尿布摆放在相同的区域;沃尔玛从上个世纪 90 年代尝试将艾格拉沃发明的商品关联关系的计算方法—— Apri
K 近邻算法(k-nearest neighbors, KNN)是一种很基本的机器学习方法
算法步骤:给定样本,寻找最近的 K 个样本进行(分类/回归)预测
KNN的 3 个核心要素:
KNN 的主要优点:
前置知识:图论基础
代码实践:图特征工程_Python实现
度中心性 (Degrree Centrality):
特征向量中心性 ( Eigenvector Centrality): $$ c_v=\frac{1}{\lambda}\sum_{u\in N(v)}c_u $$
介数中心性
PyG (PyTorch Geometric),基于 PyTorch 编写和训练图神经网络 (GNN)
NetworkX 是一个 Python 包,常用于创建、操作和挖掘图/复杂网络
本教程默认使用 NetworkX=3.2.1
G = nx.Gr