旗下微信矩阵:

数渡信息:大模型爆发下高速互连芯片的成长机会

随着国家对算力的重视程度越来越高,算力产业已经进入高速成长期,高速互连芯片作为算力产业链的核心产品,尤其是在国内产品空白的情况下,正迎来高速发展的机遇期。
2024-02-06 15:41 · 投资界综合     
   

近日,由西安龙鼎投资管理有限公司牵头发起的闭门分享会【龙鼎创投荟】第1期,在北京数渡信息科技有限公司会议室圆满举办。数渡信息总经理张立新博士作为本次分享会的首场主讲人,以“大模型爆发下高速互联芯片的成长机会”为主题,与行业内芯片精英、媒体机构等众多半导体产业链相关人士展开深度探讨。

大模型自出现以来已迅速渗透到多个行业,与此同时,也相应带动了高端智能算力的需求快速增长。众所周知,大模型发展的背后是需要庞大的算力来做支撑。由于大模型的计算复杂度很高,需要使用大量的算力来进行训练和推理,对大算力的需求增长已经远远超过算力芯片自身的成长速度,因此通过高速互连技术构建规模化的大算力系统,已经成为大模型发展与应用的核心基础。

在分享会现场数渡信息张立新博士表示,高速互连已经成为算力产业链中至关重要的一环,其直接决定了算力系统的规模和应用效率。从大算力系统的构建来看,高速互连主要指的是三个层面的技术:一是在服务器系统内部,高速互连芯片在多个功部件相互之间提供高速数据传输,如CPU、GPU、高速存储、高速网卡等,其中PCIe/CXL是主要的互连技术,也有Nvlink等定制协议存在;二是在算力集群内部,如内部的卡间互连,常用的技术包括IB、RoCE以及NvSwitch等;三是在算力集群之间,通常利用以太网为主,也有IB、NvSwitch等。目前,国内在高速互连技术产品上,尤其是在服务器系统内部互连的PCIe/CXL还是完全空白,其它层面的互连与国外相比还有很大差距。

国内对高速互连芯片的需求正进入一个快速的增长时期。根据IDC数据显示,2022年中国AI服务器出货量达28.4万台,预计到2027年达到65万台。典型的单台8卡GPU AI服务器需要4-10片高端的PCIe/NvSwitch芯片,即便不包括通用服务器、高密度存储等传统领域对高速互连芯片的需求,仅AI服务器单一场景下的应用需求也已经超过百万片,且这个需求规模还在逐年大幅增长。可见,随着国内算力产业的不断发展,高速互连芯片的市场需求规模正在快速增长,也为国内从事高速互连芯片技术产品研发的企业注入了更强的市场动力。

高速互连技术发展迅速、创新要求高,为该领域的初创企业创造了更多的发展壮大机会。比如从国内算力产业实际发展情况来看,面对国产算力芯片技术发展和产业升级受限、单个算力芯片比国外的同类产品能力相差很多的现状,通过创新发展高速互连技术来构建更高密度和更大规模的算力系统,满足大模型等业务的算力需求成为当前最为可行的途径。但是,高速互连芯片的设计难度大、设计生态差以及技术涉及面广,对研发技术团队的要求非常高,需要包括系统层面、网络层面、协议层面以及大芯片层面的各类型专家共同协作才行,需要企业掌握全面的技术能力。

随着国家对算力的重视程度越来越高,算力产业已经进入高速成长期,高速互连芯片作为算力产业链的核心产品,尤其是在国内产品空白的情况下,正迎来高速发展的机遇期。一方面,国内的算力市场给高速互连芯片企业,提供了足够大的市场空间去发展壮大;另一方面,国内高速互连产业发展相对滞后,也就给企业预留了更多的发挥和成长的空间;此外,随着互连的重要性被越来越多的算力企业所关注,技术发展迭代进程迅速加快,也给该领域的创业公司带来更多的发展壮大的机会;另外,除满足当前算力发展需要外,在类脑计算、光子计算以及量子计算等新兴计算领域,这些算力系统产品的构建同样离不开高速互连。

可以说,当前中国的高速互连产业发展正迎来一个高速发展的机遇期。在分享会互动问答环节,张立新博士与龙鼎投资为代表的创投机构、芯片行业专家、媒体嘉宾等半导体产业精英们展开了深入且深刻的交流探讨,共同聚焦高速互联芯片的未来发展与时代潜力。

以下是数渡信息总经理张立新博士互动问答内容精选:

问题一:互连芯片产品的开发,需不需要与所有的上下游厂商如CPU、GPU等厂商一起来联合开发?

答:高速互连芯片采用标准协议如PCIe/CXL这种,大家采用的接口都是标准化的协议,产品研发只要严格遵守标准协议,相互之间不需要更多的合作就可以直接互联互通。但是,如果就互连性能和支撑的应用场景来说,相互之间如果能够进行一些更多的协同的话,将有利于这种性能的提升。另外,如果采用非标准化的协议如定制的标准协议,就需要与相互连的设备厂商来一起协作。

问题二:高速互连芯片在国内还是空白,那么国内智能算力芯片之间互连目前能够做到一个什么样的水平?

答:目前来说,国内算力芯片之间的互连还尚处于发展的初期阶段,一般是利用卡间直连的方式来做,比如一个8卡系统,相互之间可以直接利用线缆直接连接,当系统更大的时候带宽和效率就会下降很快,由于缺乏类似nvswitch的交换芯片产品,我们在做更大算力系统的时候互连将会成为严重制约整个系统效率的瓶颈所在。虽然国内目前算力公司有在做自己的卡间互连方案,但是高速互连芯片有独特难度,即便像英伟达也是收购了Mellanox做,而AMD是和博通合作做,所以说其它包括国内算力公司的企业在规模化系统互连上还有待寻找和推出合适的产品。

问题三:现在从一些技术发展的趋势来看,未来智算中心建设会不会以互连为核心来设计智算中心方案,以后会是什么趋势?

答:现在的智能算力系统发展来看,算力上已经从由CPU为核心正逐渐向以GPU为核心进行转变,系统互连的地位也在日益突出。如果但以整机系统为主,预计AI算力厂商更有话语权,当然系统规模变大以后,互连方案和算力会同为核心,只有通过相互之间的协作才能构建出一个高效的算力系统。

问题四:互连协议方面,国内是遵循国际标准还是国内做自己的协议标准更好?

答:从企业层面来说,国际主流的标准协议是肯定要遵循的,这样才能更好的进入整个生态和实现产品的应用。从未来算力系统的升级来说,国产化协议是一条很好的路径,一方面国外的标准协议如Nvlink是不开放的,另外国产GPU的互连还缺少高效的规模化方案支撑,迫切需要有一个可行的方案,虽然做国产化协议标准的实际困难很多,但是对于国产算力发展层面来说,这是一条肯定要走的路。

【本文经授权发布,不代表投资界立场。本平台仅提供信息存储服务。】如有任何疑问题,请联系(editor@zero2ipo.com.cn)投资界处理。