GPU万卡集群,小米下场了!摩尔线程智算集群扩展至万卡!中国移动将商用三个自主可控万卡集群......一系列标题的袭来,让笔者突然意识到,仿佛在不经意间,智能算力建设已然迈入万卡时代。
那么到底什么是万卡集群?万卡集群到底有哪些作用?有必要部署万卡集群吗?
什么是万卡集群?
万卡集群,是指由超过一万张加速卡(如GPU、TPU或其他专用AI加速芯片)组成的高性能计算系统,用以加速人工智能模型的训练和推理过程。
至于为什么需要一万张加速卡?
众所周知,大模型竞赛的本质是算力竞赛。比如这里有一个超大土堆,放一个工人和放一万个工人,在效率上肯定会有质的飞跃。
以OpenAI训练GPT模型为例,GPT-4需要使用2.5万张英伟达A100 GPU,并行训练100天左右的时间,在此期间要处理13万亿个token,并且涉及大约1.76万亿个参数。在不久的将来,开发大模型所需的算力将实现指数级的增长,对于即将亮相的GPT-5,预计该模型的训练需要部署20万~30万个H100 GPU,耗时130~200 天。
如今OpenAI发布ChatGPT已有两年的时间,从建设进度上看,海外头部厂商在2022年、2023年已经完成万卡集群搭建。比如2023年5月,谷歌推出的AI超级计算机A3,搭载了约26000块英伟达H100 GPU;2022年,META宣布了一个由1.6万块英伟达A100 GPU组成的集群。到了2024年初,META进一步扩大规模,建成了两个各含24576块GPU的集群,并设定了宏伟目标:到2024年底,构建一个包含35万块英伟达H100 GPU的庞大基础设施。亚马逊AmazonEC2 Ultra集群采用了2万个H100 TensorCore GPU。
再看中国的智能算力建设情况。
国产万卡集群,谁在布局?
日前,中国工程院院士郑纬民指出,“构建国产AI卡的万卡大模型训练平台很难,但也很重要以及必要。”
当下,国内已有多家厂商及机构着手向万卡集群领域拓展业务。
根据《智算产业发展研究报告(2024)》显示,在中国,超万卡集群的智算中心已达十余个。
今年以来, 中国移动 、联通、电信三大运营商均在加速推进超万卡集群智算中心的建设。
今年8月,中国电信在智算网络建设方面取得了显著进展,其上海与北京两大万卡集群已成功投产运营。
中国移动位于呼和浩特、哈尔滨、贵阳的万卡级别的智算中心已经先后投产运行。据悉,三大集群总规模近6万张GPU卡,充分满足大模型集中训练需求。
中国联通正在打造上海、呼和万卡智算集群,全网智算算力超15EFLOPS,发布AICC、AICP、星罗调度平台等五大智算产品,提供涵盖国家“东数西算”枢纽、31省重点城市、超600边缘节点的AIDC基座。
小米也正计划建设一座GPU万卡集群。据悉,小米在其大模型团队成立时已经拥有6500张GPU资源。
字节在2023年就已建立起超过1万张卡的Ampere架构GPU (A100/A800) 集群,此后还在建设大规模Hopper架构(H100/H800)集群。
如今,“万卡集群”被业界视作是这一轮大模型竞赛的“入场券”,甚至还有不少厂商已经开始布局“十万卡集群”。
百度的百舸 4.0 通过一系列产品技术创新,已经能够实现十万卡集群的高效管理。
阿里巴巴的阿里云可实现芯片、服务器、数据中心之间的高效协同,支持 10 万卡量级的集群可扩展规模,已服务全国一半的人工智能大模型企业。
腾讯已宣布自研星脉高性能计算网络全面升级,星脉网络 2.0 搭载全自研的网络设备与 AI 算力网卡,能够支持超 10 万卡大规模组网,网络通信效率比上一代提升 60%,让大模型训练效率提升 20%。
国产AI芯片公司,得到利好
显然,在运营商以及科技巨头纷纷入场布局之际,国产 AI 芯片公司也迎来利好。
华为昇腾
据悉,以政府为主导的城市智能计算中心多采用国产A1芯片中的佼佼者如华为昇腾等,其中华为更是在统计的20多个城市为主体的智能计算中心中占据79%的市场份额,处于国产AI芯片的*位置。在可预见的2025年,昇腾芯片及服务器的市场依旧会处于紧张的供给局面。
寒武纪
2023年寒武纪思元(MLU)系列云端智能加速卡在中国移动正式上线。截至2023年12月,中国移动已有12个省公司、超过70个AI业务完成向寒武纪思元系列云端智能加速卡的迁移。
2024年8月,中国移动云能力中心参建的全球运营商*单集群智算中心——中国移动智算中心(哈尔滨)正式投产使用。该智算中心部署超1.8万张AI加速卡,AI芯片国产化率达100%,可提供6.9EFLOPS(每秒690亿亿次浮点运算)智能算力。据悉,该智算中心就是由寒武纪参与建设。
南京智能计算中心由南京市麒麟科技创新园与浪潮、寒武纪共同打造,采用浪潮AI服务器算力机组,搭载*的寒武纪思元270和思元290智能芯片及加速卡,已运营系统的AI计算能力达每秒80亿亿次 (800P OpS)。
大模型爆火的当下,AI的训练和推理芯片及训推一体化等芯片成为市场“香饽饽”,寒武纪在此领域的深耕研发,加速思元系列芯片的迭代。
摩尔线程2023 年 12 月摩尔线程 KUAE 智算中心揭幕,这是国内*以国产全功能 GPU 为底座的大规模算力集群,以全功能 GPU 为底座,提供软硬一体化的全栈解决方案。
2024 年 7 月,摩尔线程联合中国移动通信集团青海有限公司、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司等,分别就三个万卡集群项目进行了战略签约,多方将聚力共同构建好用的国产GPU集群。
燧原科技
2021年燧原科技与之江实验室在之江实验室南湖新园区签约成立“燧原-之江人工智能芯片联合研究中心”。
成渝智算中心由四川并济科技投建,燧原科技提供搭建算力底座。
与此同时,燧原科技还助力太湖亿芯(无锡)智算中心、甘肃庆阳算力枢纽的建设。
天数智芯
中国移动智算中心(呼和浩特)是全球运营商领域内规模*的单体液冷智算中心,智算规模高达 6.7EFLOPS(FP16),拥有国家级 N 节点万卡规模 AI 训练场。
天数智芯在该项目中充分发挥天垓 150 产品的*性能与广泛适用性,与新华三信息技术强强联合,共同打造高性能 AI 训练服务器。
壁仞科技
壁仞科技也参与中国移动呼和浩特智算中心项目。
此外,壁仞科技的壁砺系列通用 GPU 算力产品还在中国电信落地千卡集群并开展商业化应用,另外在中国电信集团新一轮国产化 GPU 集采项目中,壁仞科技的主流 GPU 产品已经纳入中国电信的集采名录,成为中国电信的主要 GPU 供应商。
沐曦科技
2024 年 11月,由上海联通携手加佳科技、沐曦共同打造的曦源一号 SADA 万卡集群算力项目*期千卡国产算力集群在上海联通临港机房正式落地。该项目以沐曦 GPU 芯片技术产品为核心,着力构建集算力、算法、数据、产业应用为一体的人工智能产业新生态。
据悉,沐曦和加佳科技已在上海、湖南、江苏等多地建成智算中心,并计划于2025年6月完成10000卡国产高质量算力建设。
何止“万卡”,甚至要“百万卡”
从早期智算中心艰难起步,一步步发展到如今 “万卡” 规模的算力集群纷纷落地,这无疑是巨大的飞跃。当下,行业头部厂商更是将视野进一步拓宽,已然聚焦于更为宏大的 “百万卡” 目标。
近日,在AI市场快速增长的背景下,博通市值突破 1 万亿美元,创下历史新高。
博通首席执行官陈福阳表示,他有信心在 2020 年代后期继续加大对人工智能的投资。他指出,三年内,博通的客户计划构建配备数百万个 AI 芯片的大规模计算集群,从而推动市场大幅增长。
博通正与三大客户合作开发 AI 芯片,计划到 2027 年在网络集群中部署 100 万个芯片。据CNBC报道,他估计,到 2027 年,其 XPU 和 AI 网络组件的总市场规模将达到 600 亿至 900 亿美元。
虽然博通尚未正式公布其芯片客户,但分析师表示,该公司正在与谷歌、Meta 和字节跳动合作,以加速 AI 系统的训练和部署。据《金融时报》报道,该公司已为此开发了定制处理器。
“万卡集群”真的有必要吗?
先说结论,“万卡集群”的建设一定是有必要的。
当前,我国智能算力供不应求的问题较为突出,大模型对算力的需求增速远超单颗 AI 芯片性能的提升步伐。相关报告显示,2023 年,中国智能算力需求达 123.6EFLOPS,而供给仅为 57.9EFLOPS,供需缺口一目了然。利用集群互联弥补单卡性能短板,或是现阶段缓解 AI 算力荒最值得探索与实践的有效途径。
不过,在推进 “万卡集群” 建设进程中,有两大关键难题亟待解决:其一,怎样高质量完成建设任务,保证集群在稳定性、高效性、兼容性等多方面达到标准要求;其二,建成后如何充分挖掘其应用价值,使其在人工智能训练、大数据分析等适配场景发挥*作用,杜绝资源空置与浪费现象。
首先,不妨将 “万卡集群” 类比为参与 “多人多足” 游戏的团队,大家都清楚,让一群人如同一个人般整齐划一地前行并非易事,要调度上万张计算卡协同高效作业、达成性能的线性扩展、确保任务无间断运行,这对集群的设计、调度以及容错能力都提出了极高挑战。
其次,智算中心的建设只是一个开端,更重要的是后续的有效运用。
据报道,由于智算中心的投资、建设、运营通常由不同主体负责,前期建设方常常对后续运营模式、服务标准缺乏足够考量,出现 “只管建设、不顾运营”、建设与运营脱节的情况,影响了客户体验,致使不少城市所建智算中心的机架利用率不尽人意。
从商业模式来讲,智算中心大多以出租或售卖算力为主要盈利手段,然而因行业尚未统一算力定价标准,不同智算中心价格差异悬殊,市场接纳程度受限。
近期,多位智算中心领域从业者走访国内各地智算中心后,他们中的一些人向《智能涌现》反馈,当前国内算力中心市场较为低迷。一位业内人士透露:“就目前所掌握情况,多数机房出租率大致在 20% - 30% 区间浮动,部分企业级智算中心出租率甚至低至 10% 左右。”
要清楚,智算中心不仅前期需要投入巨额资金购置 GPU 等 AI 芯片,后续运营阶段同样需要持续注资。
《智能涌现》不久前发文指出,一台英伟达 H100 服务器(8 卡)租赁价格,已从年初的 12- 18万元/月,下滑至目前的7.5万元/月,降幅约50%。
若按照当前机房20%的利用率来算,一个英伟达H100千卡集群智算中心每年营收仅2300 万元(即7.5 万元/月×12个月×128台服务器×20%),这意味着,即便算力中心勉强维持运营,所得收入基本只能覆盖一半的正常运营成本,前期投入的资本根本无从回本。
综上所述,“万卡集群”已成为智能算力时代的重要里程碑,标志着我国在人工智能领域的算力建设迈上了新的台阶。从小米、中国移动等科技巨头正积极布局万卡集群,以期在这场大模型竞赛中占据有利地位。然而,万卡集群的建设并非易事,智算中心需要多长时间才能通过运营收入收回投资,行业也还需更多的探索。
【本文由投资界合作伙伴微信公众号:半导体产业纵横授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。