旗下微信矩阵:

中国AI Infra赛道的竞争格局与挑战

2024-11-07 13:42 · 互联网     

2024年:大模型的飞跃之年

2024年无疑是大模型迅猛发展的一年,据最新数据显示,我国已有近200个生成式人工智能服务大模型完成备案并上线,服务于超过6亿的注册用户。这一趋势标志着大模型正式迈入大规模应用落地的新阶段,而支撑这些大模型训练、部署和应用的AI Infra(人工智能基础设施)被推到了台前,成为行业关注焦点。

AI Infra:大模型生态的关键支撑

AI Infra在大模型生态系统中扮演着至关重要的角色,它位于算力层与AI应用之间,类似于手机操作系统之于手机与应用程序。正如不同应用程序在不同手机上的运行流畅度取决于硬件和系统成熟度,AI Infra的成熟度和兼容性同样影响着大模型的性能表现。面对国外系统的垄断,国产AI Infra的发展显得尤为迫切。

清华系创业者:AI Infra赛道的领跑者

在国内,真正聚焦于AI Infra赛道的企业中,以清华系创业者为主导,其中清程极智和硅基流动是两个典型代表。

硅基流动以其强大的终端MaaS(模型即服务)能力著称,而清程极智则凭借其源自清华大学计算机系高性能计算研究所的背景,在高性能计算领域拥有深厚的技术积累,成为行业中手握王牌的人。清程极智的官方数据显示,其清程大模型训练加速系统八卦炉在国产超算上已能实现百万亿参数模型的预训练,规模千倍于GPT-3。

芯片厂商、模型厂商、云厂商的AI Infra布局

或许是嗅到巨大的市场机会,芯片厂商、模型厂商和云计算厂商纷纷表现出对AI Infra的兴趣,希望将这一能力整合到自己的产品线中。然而,现实情况远比预期复杂。

对于芯片厂商而言,虽然一体化的芯片产品在训练和推理方面具有巨大的市场潜力,但目前尚难以实现。芯片的研发周期长,而芯片厂商此前也从未从大模型训练和推理的方向设计过,技术基因不足,加之算力需求不断提升,国产芯片厂商在追赶中仍面临诸多挑战。

部分国产芯片厂商选择从推理业务切入,如沐曦、登临等,因为相较于训练,推理对芯片硬件的要求相对简单。尽管有少数芯片厂商宣称能够进行训练,但从公开数据来看,千卡集群仍是其追求的目标,与实际需求存在较大差距。

放眼海外,尽管出现了一些专门为大模型打造的芯片,但如何把专用芯片的硬件算力充分发挥出来,也需要AI Infra这一层一系列系统软件层面的努力。

对于云厂商而言,尽管拥有丰富的资源,但在AI Infra所需的核心技术,如编译和大规模集群训练方面,尚未有哪家产品展现出垄断性竞争力。此外,云厂商难以提供定制化服务,这在追求性价比解决方案的当下,使得云厂商的服务在项目规模上显得过于庞大。

大模型厂商尝试涉足AI Infra业务,意在跳过中间环节,将能力掌握在自己手中,实现理想中的“我训练我自己”。尽管大厂相对不缺钱不缺人,但考虑到大模型业务的持续性和未来,是否值得为模型训练所需的大量算力资源和招聘系统软件方面高级人才所需的费用买单,答案不言而喻。

理想形态:产业分工合作

清程极智CEO汤雄超在公开场合曾经表示,AI 行业的理想形态是各层面厂商专注于自己最核心和最擅长的业务,如模型、芯片、应用的迭代,而将系统软件的事务交给专业的AI Infra厂商。

据他的了解,一些上下游厂商自己做系统软件也是源于之前对能够满足其需求的Infra 公司不了解,毕竟这是个新兴行业,大多公司的品牌声量还较小,但实际上从技术层面来说,AI Infra的行业壁垒还是很高,他们曾遇到过移植开源方案之后完全不能满足业务要求的案例。

行业人士认为,随着产业的发展和成熟,信息的对齐,业界会越来越多地意识到采用外部优秀的AI Infra解决方案是更好的选择。毕竟,专业的事情需要专业的人去做。AI Infra作为一个新兴行业,虽然品牌声量尚小,但行业壁垒高,专业性强,是推动大模型发展的关键力量已逐渐成为共识。

(免责声明:本文转载自其它媒体,转载目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。请读者仅做参考,并请自行承担全部责任。)