自研 AngelPTM 大模型訓練框架上線公有云,助力降本增效
AngelPTM 技術原理簡介
ZeRO-Cache 優化策略
統一視角存儲管理
ZeRO-Cache 顯存管理器
PipelineOptimizer
多流異步化
ZeRO-Cache SSD 框架
大模型訓練加速效果
DeepSpeed | Megatron-DeepSpeed | |
---|---|---|
社區方案 | 0.8.1+258d2831 | 7212b58 |
AngelPTM 方案 | 0.6.1+474caa20 | c5808e0 |
注意:其他環境,例如 OS/python/CUDA/cuDNN/pytorch 等版本二者一致。
注意:4機32卡訓練性能提升比例(26.8%)相比單機有所下降主要是由於網絡帶寬限制。這裡使用的是 100Gbps RDMA 網絡,未來騰訊雲會推出更高帶寬 RDMA 的高性能計算集群,預期性能提升會與單機接近。
AngelPTM 已加入 TACO Train 加速組件,助力大模型訓練顯存上限、性能大幅提高
-
AngelPTM 將單機 A100 40G 容納的模型規模提升了94.71% -
基於社區方案能容納的最大模型規模,AngelPTM 性能提升了44.42% -
千億模型規模下,AngelPTM 多機擴展比接近線性