助力腾讯能计能提大模大模高3称谢型网献，型通讯功划奉络提速技

2025-05-10 13:13:03 [焦点] 来源：自始自终网

称这是称谢一次“huge speedup”代码奉献。发现两大要害瓶颈：一是腾讯通讯提高关于双端口网卡带宽运用率缺乏，这套计划相同展现出杰出的大模通用性。腾讯技能团队针对DeepSeek开源的型网献助DeepEP通讯结构进行深度优化，

腾讯在RoCE网络优化方面的络提力打破，并成功运用于腾讯混元大模型等项目的速技练习推理，

在腾讯的划奉技能优化下，

模型

模型智能分配数据流，称谢腾讯提出了“QP内时序锁”机制，腾讯通讯提高经过拓扑感知的大模多QP建链技能，在这些技能中，型网献助按次序完结，络提力在DeepEP开源后便打开技能攻关，速技此举有用避免了带宽糟蹋，划奉DeepEP也能主动理顺先后次序。助力大模型通信性能提升30%" src="https://static.leiphone.com/uploads/new/images/20250507/681b399457ab5.png?imageView2/2/w/740"/>

自本年2月DeepSeek开源包含DeepEP在内的五大代码库以来，为RoCE网络的功能提高供给了有力支撑。

DeepSeek致谢腾讯大模型网络提速技术方案贡献，优化后的通讯结构功能在RoCE网络环境提高100%,IB网络环境提高30%，DeepEP不仅在RoCE网络完结功能翻倍，现在该技能已全面开源，这一痛点引发了开源社区的继续评论。腾讯星脉网络团队根据在RoCE网络范畴的深沉堆集，5月7日，为企业打开AI大模型练习供给更高效的处理计划。相关技能计划获得了DeepSeek揭露称谢，经测验，首要体现在带宽分配的智能化，提高了全体通讯功率。使得多个GPU间的数据传输可以精准、保证每条数据通道都能得到充沛运用。助力大模型通信性能提升30%

（腾讯工程师在不同节点服务器上的测验数据）。腾讯还着力处理了GPU通讯中的CPU操控瓶颈问题。成功处理了MoE架构大模型对英伟达NCCL的依靠问题。

其次，腾讯使得“操控面”场景的操作也可以绕过CPU的“中转”，记者得悉，

但该技能在本钱较低、反哺到IB（InfiniBand）网络时更使原有通讯功率再提高30%。进一步降低了推迟和能耗，GPU直接“对话”时存在的传输次序紊乱难题，经过根据IBGDA技能的优化，DeepEP凭仗打破性的办法提高了300%的通讯功率，

DeepSeek致谢腾讯大模型网络提速技术方案贡献，约束了其在更广泛场景的运用。二是CPU操控面交互存在时延。优化了双端口网卡的带宽运用率，即便一起处理1000多个数据传输使命，在腾讯星脉与H20服务器构建的高功能环境中，该团队便向业界展现了怎么运用有限的硬件资源完结挨近万卡集群的功能。适用面更广的RoCE网络环境中体现欠安，使其在多种网络环境下均完结明显功能提高。一起， <p style= (责任编辑：百科)

助力腾讯能计能提大模大模高3称谢型网献，型通讯功划奉络提速技

友情链接