模型参数的常见数据类型:
- Float32 (FP32) 是标准的 32 位浮点表示,包含 1 符号位+8 指数位+23 尾数位
- Float16 (FP16) 则包含 1 符号位+5 指数位+10 尾数位,数值范围远小于 FP32
- Bfloat16 (BF16) 包含 1 符号位+8 指数位+7 尾数位,牺牲精度来保证数值范围
- TensorFloat-32 (TF32) ,使用 19 位表示,结合了 BF16 的范围和 FP16 的精度
- Int8 (INT8) 是一个 8 位的整型数据表示,可以存储 256 个不同的值
在机器学习术语中,FP32 称为全精度 (4 字节),而 BF1