结论:
- 现阶段 4090 能满足 DL 的入门需要,且 LLMs 推理的性价比最高
- 缺点是性能不足够支持 LLMs 训练(通信不高效,显存不够用)
1 GPU 的基本概念
NVIDIA 的三个产品线:
- GeForce 类型:面向个人计算和游戏市场推出的产品线,适用于游戏、图形处理等,并且在深度学习上的表现也非常出色,很多人用来做推理、训练,性价比高。例如目前热门的 4090、3090等型号
- Quadro 类型:定位于专业可视化市场的产品线,主要面向专业人士和企业用户,例如,影视制作、建筑可视化、产品设计和科学计算等行业
- Tesla 类型:针对高性能计算和人工智能领域推出的产品线,被广泛应用于科学计算、深度学习、大规模数据分析等领域。 A100、A800、V100、T4、P40 等都属于 Tesla 系列的显卡
GPU 关键参数
- GPU 显存:显存够大才能训练足够复杂的模型,或者使用更大的批量大小来提高训练效率
- GPU 带宽:决定了GPU处理器访问显存数据的速度。高带宽有助于提高数据处理效率
- CUDA 核心数:CUDA 是 NVIDIA 显卡的并行处理核心,CUDA 核心数越多,计算能力越强
- Tensor 核心数:专为深度学习计算优化的处理器,能够显著加速深度学习模型的训练和推理
- 浮点运算速度 FLOPs:衡量 GPU 计算能力的重要指标;常用于模型效能的评价
- 精度支持:AI模型训练通常需要单精度(FP32)或半精度(FP16)浮点运算能力
2 适合 DL 的 GPU
不同阶段的需求:
- 入门级:性价比较高的消费级 GPU,比如 RTX3060 或 3070
- 中级别:满足部分 AI 模型的训练或大部分 LLMs 的推理,比如 RTX3080 或 4090
- 高级别:满足绝大部分 AI 模型的训练和推理,价格昂贵;比如 A100 或 H100
GPU 的推荐路径:
个人用户推荐消费级显卡 4090,可根据预算逐渐往下降低配置
企业用户如果需要训练 13B 以上的 LLMs,最低门槛是 A100 或 H100
GPU 的性价比(综合性能除以价格)排名(Performance per Dollar)
3 其他 GPU 资源或资料
二手显卡:预算有限且具备一定硬件知识的情况下可考虑
多卡 GPU:显存大小决定了深度学习的门槛,多卡主要用于训练/推理加速
显卡改装:2080Ti 22G 版,第三方魔改,品质无保障,但性价比确实很不错
其他品牌:无论是 A 卡还是国内的摩尔线程,生态还不够成熟(打游戏可考虑)
算力云平台:初学者优先考虑 Colab 或 Kaggle 上的免费算力,一次性训练或短期测试可以考虑腾讯云/阿里云/火山引擎等国内的付费算力平台(国外的当然也行)
其他扩展资料:
- [消费级显卡排行榜(实时更新)](- https://technical.city/zh/video/nvidia-rating )
- 显卡推理速度和单位成本对比
- 任意两个显卡参数对比-以A10和4090为例
- 大模型的显存占用
- GPU 通识及硬件选型
本文参考资料:
Which GPU(s) to Get for Deep Learning
知乎 - A100/H100 太贵,何不用 4090?