英伟达刷新MLPerf的DeepSeek-V3 671B训练记录:提速60%,最快2.02分钟完成
英伟达昨日(6月16日)发布博文,宣布在MLPerf Training 6.0全部7项基准测试中,其Blackwell平台拿下最快训练成绩,并成为唯一覆盖全部测试项目的平台。

IT之家注:MLPerf Training是业界常用的AI训练基准测试体系,用来比较不同硬件与系统在模型训练任务中的速度和效率。
而昨日(6月16日)最新发布的MLPerf Training 6.0测试套件中,主要包含7项核心测试,涵盖了当前主流的大语言模型、生成式AI及经典机器学习工作负载:
DeepSeek-V3:基于拥有671B参数的大规模预训练语言模型,侧重测试稀疏计算(MoE架构)的性能。
GPT-OSS 20B:包含210亿参数的生成式预训练语言模型测试。
Llama 3.1-8B:主流的8B参数大规模语言模型(LLM)预训练测试。
Llama 2-70B:利用低秩自适应(LoRA)技术对70B参数的Llama 2模型进行微调测试。
FLUX.1:文生图(Text-to-Image)生成模型测试,测试多节点扩展下的处理能力。
GNN(图神经网络):基于RGAT模型的大规模图结构数据分类测试。
推荐系统 (Recommender):基于DLRM(深度学习推荐模型)的处理测试,通常用于评估大规模内容分发与广告推荐性能。
MLPerf Training 6.0测试套件主要新增了DeepSeek-V3 671B和GPT-OSS-20B两个混合专家模型(MoE)预训练工作负载。
英伟达此次提交了GB200 NVL72和GB300 NVL72两套机架级系统。每套NVL72内部通过第5代NVLink Switch连接72块GPU,把算力和内存整合成统一资源池。
在性能层面,GB300 NVL72较GB200 NVL72在同等规模下最高可带来1.6倍训练速度提升。

在规模层面,英伟达把Blackwell训练集群推到8192块GPU。其在DeepSeek-V3 671B任务上,用GB200 NVL72完成8192块GPU规模提交,成为迄今MLPerf Training中规模最大的Blackwell成绩。

CoreWeave则借助采用Spectrum-X以太网的GB300 NVL72系统,在8192块GPU规模上把DeepSeek-V3 671B训练到目标质量,耗时缩短至2.02分钟。IT之家附上相关截图如下:



- 银行股迎来“黄金买点”?摩根大通预计下半年潜在涨幅高达15%,股息率4.3%成“香饽饽”
- 华润电力光伏组件开标均价提升,产业链涨价传导顺利景气度望修复
- 我国卫星互联网组网速度加快,发射间隔从早期1-2个月显著缩短至近期的3-5天
- 光伏胶膜部分企业上调报价,成本增加叠加供需改善涨价空间望打开
- 广东研究通过政府投资基金支持商业航天发展,助力商业航天快速发展
- 折叠屏手机正逐步从高端市场向主流消费群体渗透
- 创历史季度新高!二季度全球DRAM市场规模环比增长20%
- 重磅!上海加速推进AI+机器人应用,全国人形机器人运动会盛大开幕,机器人板块持续爆发!
- 重磅利好!个人养老金新增三大领取条件,开启多元化养老新时代,银行理财产品收益喜人!
- 重磅突破!我国卫星互联网组网速度创新高,广东打造太空旅游等多领域应用场景,商业航天迎来黄金发展期!
