BNN 的定义

贝叶斯神经网络（Bayesian neural networks, BNNs）：

神经网络中的可训练参数，即权重（weight）和偏置（bias）都表示为一个分布
一种最简单的 BNN 就是将模型参数看作服从均值为 $\mu$，方差为 $\delta$ 的高斯分布；考虑到中心极限定理的存在，一般认为模型参数符合高斯分布是一种合理的假设
在预测时，BNN 会从每个高斯分布采样，得到一个确定的神经网络，然后用于预测；也可以对参数多次采样后分别进行预测，然后将多次预测结果进行汇总（类

大模型开发技巧

发表评论

1088 views

低显存GPU环境调试大模型
低显存 GPU 环境推理大模型

低显存GPU环境调试大模型

方案：将 config.json 文件中 num_hidden_layers 的值修改为较小的值（比如 1）

原理：隐藏层中 block 的输入输出维度是一致的，因此去除重复的 block 并不会影响模型的处理逻辑；但需要注意该方法会影响模型的性能，因此只适合模型调试阶段使用。

低显存 GPU 环境推理大模型

分层推理法：将模型根据层来进行拆分存储，推理时分批次将要处理的层导入显存

代码示例：

from accelerate import init_empty_weights
from accele

模型量化 Quantization

发表评论

5654 views

1 量化的基本概念
2 量化的对称性
- 2.1 最大绝对值量化
- 2.2 零点量化
3 不同阶段的量化
4 常见的量化算法
5 常见的模型量化库
参考

前置知识：模型参数的数据类型、大模型的显存占用

模型融合 ModelMerge

发表评论

3370 views

基本概念
常见融合方法
其他补充
拓展资料

基本概念

模型融合（model merging）：

将多个神经网络模型进行合并，得到一个融合模型
优势在于节省计算/时间成本、无需训练数据（隐私保护）
有时能取得类似多任务学习的效果，也可能具备更好的泛化性

思考：如何验证模型融合的合理性？（此处

图表示学习

发表评论

1243 views

图嵌入表示
- DeepWalk
- node2vec
- LINE
- struc2vec
图神经网络

图表示学习方法一般包括图嵌入表示和图神经网络

图嵌入表示（Node Embedding）为每个节点学习一个嵌入表示（低维稠密向量），使得在原始网络中相似的节点，它们的嵌入表示也更为相似
图神经网络（Graph Neural Networks）通过聚合邻域节点的信息来生成节点的表示

图嵌入表示

基于随机游走的图嵌入经典方法：

等长度、无偏的随机游走：DeepWalk (2014 KDD Perozzi et al.)
有偏

循环神经网络

发表评论

1090 views

RNN
GRU
LSTM

循环神经网络（RNNs）：具有隐状态、不同层参数共享的神经网络

常见的三种基础 RNNs ：RNN、GRU、LSTM

RNN

隐变量模型：使用隐状态 $h_{t-1}$ 存储前 $t-1$ 步的序列信息 $$P(x_t|x_{t-1},...,x_1)\approx P(x_t|h_{t-1})$$ $$h_t=f(x_t,h_{t-1})$$ 循环神经网络（recurrent neural networks，RNNs）是具有隐状态的神经网络

假设时刻 $t$ 的输入为 $X_t \in \mathbb{R}^{n\times d}$，对应的权重参数为 $W