数工科技DIGIT·CN
生态合作2025.07.03技术合作部

飞桨 3.0 正式完成数工 DG 系列深度原生适配,性能提升 40%

百度飞桨(PaddlePaddle)3.0 版本正式宣布完成对数工 DG-X 系列 GPGPU 的深度原生适配。相较于此前通过 CUDA 兼容层运行,原生适配版本的大模型训练吞吐量平均提升 40%,显存利用率提升 15%,为国内 AI 开发者选择全国产软硬件平台提供了更强信心。

飞桨 3.0 正式完成数工 DG 系列深度原生适配,性能提升 40%

2025 年 7 月 3 日,百度飞桨(PaddlePaddle)研发团队正式发布飞桨 3.0 版本,在该版本中,飞桨对数工科技 DG-X 系列 GPGPU 完成了深度原生适配。相较于此前通过 CUDA 兼容层运行的方式,原生适配版本在大模型训练典型场景下实现了平均 40% 的训练吞吐量提升,以及 15% 的显存利用率改善。

本次深度适配覆盖飞桨 3.0 全部核心模块,包括动态图执行引擎、自动并行策略引擎、混合精度训练、参数服务器、大模型专用优化器等,全部基于数工 DGRT 运行时原生实现,不再依赖任何中间兼容层。飞桨官方还提供了针对 DG-X 架构特性深度优化的张量并行与流水并行策略,进一步释放了硬件底层性能。

在大规模联合验证环节,百度与数工科技在国家超算中心合作部署了一套 1,024 卡 DG-X900 大规模训练集群,使用飞桨 3.0 完成了 130B 参数规模自回归语言模型的完整端到端预训练。实测训练吞吐达到同等规模国际主流 GPU 集群的 94%,显著超出行业预期水平。

数工科技技术合作部表示,飞桨完成深度原生适配是国产 AI 软硬件全栈打通的一次重要里程碑事件。继飞桨之后,数工科技已与华为 MindSpore、阿里 PAI、腾讯 TI-ONE 等主流 AI 平台相继达成深度原生适配合作,预计将于 2026 年上半年陆续落地生效。

TAGS#飞桨#PaddlePaddle#框架适配#生态合作

想获取更多数工科技官方资讯?

订阅数工月报,每月第一个工作日,我们会将当月重要产品动态、客户签约、技术白皮书与开源进展直送你的邮箱。