低显存GPU环境调试大模型
方案:将 config.json 文件中 num_hidden_layers 的值修改为较小的值(比如 1)
原理:隐藏层中 block 的输入输出维度是一致的,因此去除重复的 block 并不会影响模型的处理逻辑;但需要注意该方法会影响模型的性能,因此只适合模型调试阶段使用。
低显存 GPU 环境推理大模型
分层推理法:将模型根据层来进行拆分存储,推理时分批次将要处理的层导入显存
代码示例:
from accelerate import init_empty_weights
from accele