腾讯发布星脉网络2.0，让AI大模型训练效率提升20%

2024-07-03 09:34 · 互联网　　　

（腾讯云副总裁王亚晨）

随着大模型的火热持续迭代，AI基础设施愈发成为云厂商的核心竞争力之一。

7月1日，腾讯宣布其自研星脉高性能计算网络全面升级，升级后的星脉网络2.0搭载全自研的网络设备与AI算力网卡，支持超10万卡大规模组网，网络通信效率比上一代提升60%，让大模型训练效率提升20%。这意味着，如果原来训练中某个计算结果的同步需要花100秒完成，现在只需要40秒；原来需要花50天训练的模型，只需要花40天。

AI大模型就像是一场F1比赛，腾讯云专门设计了星脉高性能算力网络“赛道”，并自研了TiTa和TCCL网络协议作为“赛事指挥中心与专业车队”，共同让“腾讯云高性能计算集群HCC的GPU服务器”这台马力强大的F1赛车发挥最大的算力性能，助力客户在AI大模型的竞争中遥遥*。

AIGC的火热推动着AI大模型参数量从亿级到万亿级的飙升。模型参数规模与架构升级对底层网络网络也提出了新的要求。

为支撑AIGC中海量数据的大规模训练，大量服务器通过高速网络组成大规模算力集群，互联互通，共同完成训练任务。

然而，集群规模越大，所产生的通信损耗会越高；同时，AI训练的通信模式，与传统的通信模式差异较大，不同大模型架构也存在着通信模式的差异。部分大模型训练过程中通信占比最大可达50%。同时，分布式计算模式也意味着，单点的故障将导致整个集群不可用，因此在故障的时候需要快速定位与恢复训练，把损失降到*。

如何在大规模组网前提下，提升通信效率、降低通信占比，让训练稳定高可用，进而提升GPU的利用率和模型训练效率，是AI网络要解决的核心问题。

数据显示，星脉网络2.0可实现大模型训练过程中，网络通信占比（通信时间占总体时间比例）低至6%，远低于10%的业界水平；通信负载率达到90%，与IB网络（Infiniband）持平，相较于标准以太网提升60%。整体能力处于业界*水平。

四大组件全面升级，助力AI训练提速

腾讯自研星脉网络是一套软硬协同的高性能网络体系，包括自研网络设备、通信协议、通信库以及运营系统四大关键组件，每个组件均采用了业界首创的腾讯核心技术。

（腾讯云副总裁王亚晨）

硬件方面，腾讯星脉网络是业界*采用全自研网络设备的高性能网络，包括交换机、自研光模块、网卡等。自研交换机从25.6T容量升级到51.2T，同时在业界率先引入400G硅光模块，速率翻倍，让网络延迟降低40%，支持超10万卡大规模组网。

值得注意的是，星脉网络2.0支持搭载腾讯自研的全新算力网卡，这是公共云业内*为AI训练设计的网卡，网卡采用最新一代 FPGA 芯片，整卡带宽可达400Gbps，具备业界最高的3.2T整机通信带宽。该自研算力网卡运行着新一代腾讯自研通信协议TiTa，并搭载了腾讯独有的主动拥塞控制算法。

相比起上一代，TiTa协议2.0从部署在交换机转移到了端侧的网卡上，从原来的被动拥塞算法升级到了更为智能的主动拥塞控制算法，可主动调整数据包发送速率，从而避免网络拥堵；并通过拥堵智能调度，实现网络拥塞快速自愈。这让混合专家(MoE)模型训练下网络通信性能相比1.0提升30%，带来训练效率10%的提升。

专为星脉网络设计的高性能集合通信库TCCL，也进行了升级。通过创新的NVLINK+NET异构并行通信、Auto-Tune Network Expert自适应算法等通信库的升级，在MoE模型训练下，给星脉网络带来了30%的通信效率提升，让模型训练效率提升10%。

TCCL 对外的接口跟原生通信库接口完全一致的，主流AI大模型客户不需要额外适配，只需要替换通信库就可以发挥星脉的能力。

通信协议TiTa与通信库TCCL的升级带来的效果叠加，让星脉网络的通信效率提升60%，MoE大模型训练效率提升20%。

网络的故障或任何单点的故障，将导致整个集群不可用，让模型训练暂停。因此，网络的高可用、稳定性也极为重要。为确保星脉网络的高可用，腾讯云自研了端到端的全栈网络运营系统，这也是星脉网络第四大关键组件。

运营系统2.0新增腾讯*技术灵境仿真平台，从原来仅能定位网络问题，到可定位GPU节点问题，实现万卡级训练故障卡顿、慢节点分钟级定位。这对星脉网络进行了360度无死角的立体监控，可以更快发现与定位网络问题，让整体故障的排查时间再次大幅缩短，故障时尽快恢复续训。

打造最适合大模型的云

目前，腾讯云已经面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、AIGC存储解决方案、向量数据库以及行业大模型服务MaaS、天御AIGC内容安全解决方案等大模型全链路云服务。超过80%的头部大模型企业使用了腾讯云服务。

大模型训练集群在HCC将高性能云服务器作为节点，满配最新代次的GPU，节点之间通过自研星脉网络互联，提供高性能、高带宽和低延迟的一体化高性能计算产品。

腾讯云AIGC云存储解决方案是国内*实现存储引擎全面自研的云存储解决方案，可将大模型的数据清洗和训练效率均提升一倍，需要的时间缩短一半。

腾讯云向量数据库Tencent Cloud VectorDB每日支撑超过3700亿次向量检索请求，可支持千亿级向量规模存储，百万级 QPS 及毫秒级查询延迟，适用于大模型的训练推理、RAG场景、AI应用以及搜索推荐服务，实现企业数据接入AI的效率比传统方案提升10倍。

腾讯云打造了天御AIGC全链路的内容安全解决方案，提供包含数据服务、安全专家、机器审核、版权保护、客户体验管理五大服务体系，护航企业从模型训练到事后运营全过程的内容安全建设。

同时，在自身AI基础设施支撑下，腾讯自研的通用大模型腾讯混元大模型也在持续迭代。

借助基于星脉网络的大模型训练集群HCC、Angel机器学习平台等自研底层技术，腾讯搭建起万卡AI训练集群，可以用更少的资源训练更大的模型，训练速度是主流框架的2.6倍；推理成本相比业界主流框架下降70%，并且支持国产主流硬件的适配。

腾讯混元已扩展至万亿级参数规模，采用混合专家模型(MoE)结构，在通用基础能力和专业应用能力方面处于国内主流大模型*地位。无论是企业客户还是个人开发者，都可以通过腾讯云上API直接调用腾讯混元，实现更便捷的智能化升级。腾讯还联合生态伙伴，将大模型技术与20多个行业结合，提供超50个行业大模型解决方案。

大模型时代的来临，将开创下一代云服务，腾讯云致力于打造“最适合大模型的云”，也将持续升级底层AI基础设施，助力企业把握AI时代。

（免责声明：本文转载自其它媒体，转载目的在于传递更多信息，并不代表本站赞同其观点和对其真实性负责。请读者仅做参考，并请自行承担全部责任。）