2025 年 7 月 3 日,百度飞桨(PaddlePaddle)研发团队正式发布飞桨 3.0 版本,在该版本中,飞桨对数工科技 DG-X 系列 GPGPU 完成了深度原生适配。相较于此前通过 CUDA 兼容层运行的方式,原生适配版本在大模型训练典型场景下实现了平均 40% 的训练吞吐量提升,以及 15% 的显存利用率改善。
本次深度适配覆盖飞桨 3.0 全部核心模块,包括动态图执行引擎、自动并行策略引擎、混合精度训练、参数服务器、大模型专用优化器等,全部基于数工 DGRT 运行时原生实现,不再依赖任何中间兼容层。飞桨官方还提供了针对 DG-X 架构特性深度优化的张量并行与流水并行策略,进一步释放了硬件底层性能。
在大规模联合验证环节,百度与数工科技在国家超算中心合作部署了一套 1,024 卡 DG-X900 大规模训练集群,使用飞桨 3.0 完成了 130B 参数规模自回归语言模型的完整端到端预训练。实测训练吞吐达到同等规模国际主流 GPU 集群的 94%,显著超出行业预期水平。
数工科技技术合作部表示,飞桨完成深度原生适配是国产 AI 软硬件全栈打通的一次重要里程碑事件。继飞桨之后,数工科技已与华为 MindSpore、阿里 PAI、腾讯 TI-ONE 等主流 AI 平台相继达成深度原生适配合作,预计将于 2026 年上半年陆续落地生效。