CS224W 图机器学习14：图与 Transformers

本小节目标：将 Transformers 的能力引入图神经网络

多头自注意力机制：

对比 Transformer 和 RNN：

对比消息传递和自注意力机制：

GNN 的设计空间 VS GAT 的设计空间：

GAT 的输入内容需要包含节点特征、邻接信息和边特征，分别对应上图中的（1）Input tokens，即节点的嵌入表示（2） Positional encoding，节点的位置编码（包含节点的邻接信息）（3）Modified Attention，改进的自注意力机制（纳入边特征信息）

由于 Transformer 模块对输入 token 的顺序不敏感，因此往往都需要额外的位置编码

常见的位置编码方法：

补充实验：基于拉普拉斯矩阵特征向量预测图是否有环的任务

较小特征值对应的拉普拉斯矩阵特征向量包含着图的局部结构

较大特征值对应的拉普拉斯矩阵特征向量包含着图的全局结构

改进的自注意力机制：

原始的自注意力计算：$Att(X)=softmax(K^TQ)T$
定义 $[k_{ij}] = K^TQ$ 作为注意力得分矩阵，其中 $k_{i,j}$ 描述了 token $j$ 对 token $i$ 更新的贡献度
因此引入额外的注意力得分 $c_{ij}$，用于描述边特征信息对 token $i$ 更新的贡献度
当节点 $i$ 与节点 $j$ 之间存在边特征 $e_{ij}$ 时，定义注意力得分 $c_{ij}=w_1^Te_{ij}$；当节点 $i$ 与节点 $j$ 之间不存在边时，找到两节点间的最短边路径 $(e^1,e^2,...,e^n)$，定义注意力得分 $c_{ij}=\Sigma_n w_n^Te_{n}$
其中 $w_1,w_2,...,w_n$ 均为可学习的参数

拉普拉斯位置编码的局限性：

解决思路 1：让神经网络兼容拉普拉斯特征向量的符号随机性

解决思路 2：额外训练一个神经网络，消化特征向量的符号随机性

SignNet 的基本结构如下： $$\begin{aligned}&f (v_1, v_2,...,v_k)=\rho (\phi (v_1),+\phi (-v_1),...,\phi (v_k),+\phi (-v_k))\end{aligned} $$

SignNet 的结构可以表达任意的符号不变函数

SignNet 的实践：

在一项预测化学分子的溶解度任务中，SignNet 的添加降低了 50% 的测试误差

个人笔记