深度学习的GPU选配

结论:

  • 现阶段 4090 能满足 DL 的入门需要,且 LLMs 推理的性价比最高
  • 缺点是性能不足够支持 LLMs 训练(通信不高效,显存不够用)

1 GPU 的基本概念

NVIDIA 的三个产品线:

  • GeForce 类型:面向个人计算和游戏市场推出的产品线,适用于游戏、图形处理等,并且在深度学习上的表现也非常出色,很多人用来做推理、训练,性价比高。例如目前热门的 4090、3090等型号
  • Quadro 类型:定位于专业可视化市场的产品线,主要面向专业人士和企业用户,例如,影视制作、建筑可视化、产品设计和科学计算等行业
  • Tesla 类型:针对高性能计算和人工智能领域推出的产品线,被广泛应用于科学计算、深度学习、大规模数据分析等领域。 A100、A800、V100、T4、P40 等都属于 Tesla 系列的显卡

GPU 关键参数

  • GPU 显存:显存够大才能训练足够复杂的模型,或者使用更大的批量大小来提高训练效率
  • GPU 带宽:决定了GPU处理器访问显存数据的速度。高带宽有助于提高数据处理效率
  • CUDA 核心数:CUDA 是 NVIDIA 显卡的并行处理核心,CUDA 核心数越多,计算能力越强
  • Tensor 核心数:专为深度学习计算优化的处理器,能够显著加速深度学习模型的训练和推理
  • 浮点运算速度 FLOPs:衡量 GPU 计算能力的重要指标;常用于模型效能的评价
  • 精度支持:AI模型训练通常需要单精度(FP32)或半精度(FP16)浮点运算能力

2 适合 DL 的 GPU

不同阶段的需求:

  • 入门级:性价比较高的消费级 GPU,比如 RTX3060 或 3070
  • 中级别:满足部分 AI 模型的训练或大部分 LLMs 的推理,比如 RTX3080 或 4090
  • 高级别:满足绝大部分 AI 模型的训练和推理,价格昂贵;比如 A100 或 H100

GPU 的推荐路径:

个人用户推荐消费级显卡 4090,可根据预算逐渐往下降低配置

企业用户如果需要训练 13B 以上的 LLMs,最低门槛是 A100 或 H100

GPU 的性价比(综合性能除以价格)排名(Performance per Dollar)

3 其他 GPU 资源或资料

二手显卡:预算有限且具备一定硬件知识的情况下可考虑

多卡 GPU:显存大小决定了深度学习的门槛,多卡主要用于训练/推理加速

显卡改装:2080Ti 22G 版,第三方魔改,品质无保障,但性价比确实很不错

其他品牌:无论是 A 卡还是国内的摩尔线程,生态还不够成熟(打游戏可考虑)

算力云平台:初学者优先考虑 Colab 或 Kaggle 上的免费算力,一次性训练或短期测试可以考虑腾讯云/阿里云/火山引擎等国内的付费算力平台(国外的当然也行)

其他扩展资料:

本文参考资料: Which GPU(s) to Get for Deep Learning
知乎 - A100/H100 太贵,何不用 4090?

往年同期文章