AI大模型之战年度复盘

大模型竞赛进展到今天，已经不是一场算法比拼，肯定会掀起一场新的产业变革。

2024年12月24日 07时 · 锦缎　贝贝侠　　收藏

这场轰轰烈烈的大模型之战，是21世纪迄今为止最重要的技术竞赛，没有之一。

这场技术竞赛具有强烈的21世纪的特征：一、信息公开及时，任何参赛选手的动作都会随时被全世界的选手了解并跟进，一个选手的技术优势保持的时间只能以天计。二、上下游高度联动，只是开发出一项绝技是不够的，还要找到上下游的帮手来将这个绝技贯通到用户端和上游基建端，一个维度不够有优势都有可能被偷家。

主流视野内，这场竞赛已经开始2年了。我们有必要对这场竞赛做一个复盘，看看它进入哪个阶段了，有哪些还在紧跟和引领的选手，甚至有可能大胆的猜一猜这场竞赛最终将以何种形式结束，谁是最终的胜出者。

01、三个阶段

首先很有必要给这场竞赛一个阶段性划分，方便我们有明确的时间戳来梳理竞赛过程。如果给这场竞赛一个阶段性划分，按照传统的方法，我们可以找个标志性的产品来粗略判断，而当前有个*参考标的：OpenAI旗下的ChatGPT。

它既是这场竞赛的发起者，也是截止目前*的参赛选手，更是其他选手的追赶和对齐的目标。我们用OpenAI作为参考和分析对象，观察其技术和产品动态可以大略把迄今为止的竞赛分为三个阶段——但考虑未来大模型最重要走入终端应用，也可以把这场竞赛分成四个阶段。

*阶段：参数比拼，先上牌桌

一个模型是否好用，没有上亿个参数基本上不了台面。

2023年关于大模型的新闻报道，参数指标以及大规模多任务语言理解基准测试的得分基本模型面世的“见面礼”。GPU成了大厂拼抢的目标，记得有段时间GPU倒卖比挖矿还要火热。

这个阶段表面是比谁家的模型参数多，谁家的模型评分更高，谁家模型效果好。背后何尝不是算力的比拼，而算力背后又是GPU的比拼。这一层层的比拼中造就了多少的赢家和输家。

这个阶段的毕业的赢家，基本会形成自己的模型“调性”和特长方向。

通过对OpenAI的GPT模型的迭代梳理，我们发现这是一个需要一步步消除历史问题，并改进准确度，提高智能性并逐渐增加更多模型能力的过程。

2019年2月，GPT-2发布，这仅是一款无监督的Transformer语言模型，完整版本的GPT-2仅有15亿个参数，随后的2020年6月份GPT-3发布，参数爆发性上涨到】1750亿个，标志着自然语言处理技术的飞跃，也给之后的大模型设定了入门门槛。

随后2022年11月，OpenAI发布了基于GPT-3的对话产品ChatGPT，同月发布了GPT-3的改进版本GPT-3.5这个改进版本，具备近似自然人的语言生成能力，随着ChatGPT的发布惊艳全球。

2023年3月，OpenAI发布第四代语言模型GPT-4，其参数有1.8万亿个，甚至媒体报道训练一次的成本在6300万美元，从这个版本开始ChatGPT具有了图像作为输入的处理能力。但用户对ChatGPT啰里啰嗦，编故事的抱怨不断升级。

2024年5月，OpenAI发布了GPT-4o，它可以处理和生成文本、图像和音频，从这个版本开始语音加入了大模型擂台。GPT-4o在大规模多任务语言理解基准测试中的得分为88.7%，高于GPT-4的86.5%，用户对ChatGPT胡说八道编故事的抱怨大大减少了。

2024年7月，OpenAI发布了GPT-4omini，这是GPT-4o的较小版本，使用这个版本可以在牺牲部分模型效果的前提下大大降低应用成本。其API每百万输入令牌成本为0.15美元，每百万输出Token成本为0.60美元，而GPT-4o的成本分别为5美元和15美元。OpenAI已经在考虑让大模型成为企业和开发者产品功能的基础组成部分。

2024年9月，OpenAI发布了o1-preview和o1-mini模型，进一步提高模型的准确率。

2024年12月，GPT-o1完整版发布。o1可以根据不同的prompt有不同的相应速度，对于复杂的问题会提供更加智能的回应，我们亲测o1的解答明显更加具备逻辑性，这意味着大模型幻觉问题得到一定程度解决。同时o1处理图像作为输入时的准确度进一步提升，测试一章模糊的柱形图图片，o1不仅可以识别数字，还会自行生成对柱形图的分析。

OpenAI走过的这一个个阶段，几乎也成了其他厂商模型改进的重要参考，OpenAI的改进方向也成了其他厂商努力的目标。

传统的互联网大厂，Meta、微软、谷歌和亚马逊对于AI模型的研究并不晚于OpenAI，只是后者最快有了突破。

Meta不仅推出了自家的大模型，并且开源了。12月9日Meta发布了Llama最新成员：Llama3.370B，该模型能够以更低的成本拥有Llama3.1405B的性能。该模型优化了多语言支持，上下文长度拓展到了128k。

除了开源模型，Meta还推出了广告推荐设计的广告检索引擎Andromeda。Andromeda通过利用*进的深度神经网络，结合ML、系统和硬件的协同，有效提升了广告检索阶段的效率，为Meta广告系统提供更个性化的广告投放，提升了广告花费回报率。

谷歌一直在深度学习和人工智能方面学术研究*，但在大语言模型方面似乎有些乱了阵脚，初代Gemini给谷歌带来的是更多的质疑声。12月12日谷歌发布Gemini2.0Flash，这是谷歌*实现原生多模态输入输出的模型，不仅在模型精准度方面相比1.5pro完成大跨度提升，还可直接生成图片。

微软和亚马逊自研的大模型进度落后，但通过曲线救国完成了大模型布局。微软是OpenAI的*金主，获得了OpenAI的大模型*授权，同时微软Azure云也是OpenAI的服务提供者，微软旗下的Microsoft365商业软件、CopilotAI都已经上线了基于GPT模型的AI产品，2024年Q3的财报前瞻中微软预期Azure云营收245~250亿美元，同比增35%~36%，AI的应用对收入的贡献约为13个百分点。

亚马逊则是通过多次投资Anthropic进入大模型赛场，截止目前，亚马逊的投资金额已经达到了80亿美元。

Anthropic旗下的Claude之于Amazon，就像ChatGPT至于微软，Anthropic成为了亚马逊在这场竞赛中对抗OpenAI和微软的重要棋子。亚马逊是一加注重InfoInfra的巨头，即使在推进大模型业务方面，亚马逊也是全链条推进。12月3日“re:Invent”大会上，亚马逊发布了6款大模型，并计划在2025年再发布2款大模型，还推出了AI训练芯片Trainum3以及AI服务器Trn2UltraServer。几乎是一次性完成了从模型训练到应用的布局。

尽管发布时间明显落后，但亚马逊对于大模型的应用反而是很彻底的。三季度财报显示，面向购物者亚马逊推出了生成式人工智能专家购物助手Rufus以及面向B端商家推出了人工智能助手ProjectAmelia。

Anthropic旗下的Claude，在2024年二季度迭代以后，在变成和对话方面的能力可以与GPT-4比肩。2022年8月创立的基于大模型的搜索产品PreplexityAI，推翻了传统搜索引擎超链接的展示方式，直接将关键词的搜索结果通过AI总结摘要展示给用户，免去了挨个点击链接并自行判断的过程。PreplexityAI甚至在四季度已经开始尝试AI结果页面的广告变现。

马斯克旗下的xAI推出开源大模型产品Grok以及图像生成模型Aurora……

在2023-2024年这2年内不止国外大模型突飞猛进，国内也是百模大战好不热闹，一时间几乎所有的互联网公司都在研发大模型。

有专注大模型的垂直创业公司六小龙，智谱AI、MiniMax、月之暗面、百川智能、零一万物和阶跃星辰。以及老牌BAT出品的，阿里的通义千问、百度的文心一言、腾讯的混元模型。

由于具备丰富的业务和数据积累，BAT的大模型产品一开始就姥姥抓住了用户，特别百度不仅模型推出的早，还创造性的提出了“模型即服务”MAAS概念，一时间几乎定义了国内的大模型研发的范式。

互联网新贵字节和快手分别推出了豆包和可灵大模型。豆包更是后来居上，据晚点披露，字节豆包App今年9月的日活已达760万，MAU超过4000万，成为众多大模型C端产品中独一档的存在。

不同于通用性大模型，一些互联网公司根据自己业务特性开发的针对性较强的大模型，如B站index大模型、网易的子曰、360的奇元。大厂中尚无明确大模型产品和策略的只剩下美团和拼多多。

对自家模型功能的描述犹如另一套互联网黑话，其用词堪比房地产公司的宣传语，总结起来就是强大，强大还是强大。

王小川曾断言，未来国内大模型市场*梯队或仅有五家存活，大厂占据主导地位，小型创业公司能存活的寥寥无几。今天来看，这一结论似乎正一步步验证，缺乏有效的商业变现机制以及对模型训练持续投入的热情正在下降，六家公司真正直接依靠大模型能力打正成本的几乎没有。

总体来看，经过2年的酝酿和淘汰赛，仍然稳定在牌桌上的厂商都有过硬的技术和产品了。各家面对的*问题战略层面是变现，技术层面是向拓展模型边界，发展多模态。乐观的是，这个阶段我们也看到了一个积极的信号，即大模型不再是赢家通吃的市场了，没有一家有能力垄断技术和市场。

第二阶段：多模态拓展和变现并行

除了大语言模型（LLM）外，文生图、文生视频，语音对话，甚至3D生成极大的拓展了大模型的应用边界。多模态之争中，最有应用前景的当属视频生成，OpenAI推出了视频生成模型Sora、图片生成模型DALL-E、Meta发布文生视频工具MovieGen、谷歌的Gemni2.0可以直接从文字生成视频。

国内方面快手正式推出了视频生成模型可灵AI，字节推出了视频生成模型PixelDance和Seaweed，以及基于模型的视频生成平台即梦AI，六小龙中MiniMax发布了其*AI高清视频生成模型技术abab-video-1。

百度在这场多模态竞赛中表现的格外另类，曾有消息传出李彦宏并不认可像OpenAI一样去做视频生成模型Sora，另一方面又强调百度需要发展多模态，但百度在这方面的动作缓慢。

与多模态发展并行的是尽快将大模型能力变现。面向C端用户国内外主流的变现方式采用类似视频网站的“每日限次使用+会员订阅”模式，20美金/月成了大部分大模型的入门价位。仍然以OpenAI为例，推出了团队版Team、每月20美金的Plus版本以及每月200美金的Pro版本。国内Kimi创造性的采用“打赏”模式，“打赏”金额不同可获得不同时长的高峰期优先使用权。

B端的变现模式则增加多样化，也代表着大模型真正发挥实力方向。Meta、谷歌将大模型能力应用在在线广告业务中，通过驱动广告业务增长来拉动营收。国内除腾讯并未透露大模型的收入提效外，阿里和百度的云业务都已经应用AI大模型，并产生部分受益。

2024年10月31日谷歌发布三季度财报，其中谷歌云营收从去年同期的84.11亿美元增长至113.53亿美元，同比增长近35%，谷歌将其强劲的云业务表现归因于旗下的AI产品如面向企业客户的订阅服务增长驱动营收提速。

另一巨头Meta在同期三季度财报中透露，核心广告业务的得益于大模型改进打来收入增长，已有超过100万广告主使用Meta的生成式AI广告工具。

大模型创业公司的营收则更为直接的展示了其营收能力。从OpenAI和Perplexity AI的收入来看还远远不够惊艳，但巨大的用户体量还是给投资人以变现的耐心。

OpenAI目前周活2.5亿，C端付费用户贡献约75%的营收，2024年公司总收入约34亿美元，但在刨除运营、人工和管理成本之后亏损50亿美元。6月份其首位CFO到位，其透露OpenAI将努力增加消费端订阅人数，努目标是将周活的5%-6%转化为付费用户。

AI搜索公司Perplexity近期在寻求新一轮融资，据The Information报道其在融资材料中披露，预计其年化收入将在2025年达到1.27亿美元，较目前水平翻倍。

国内方面，百度在第三季度财报中透露文心大模型日均调用量达15亿次，比2023年四季度的5000万次，增长了30倍，相比去年Q4披露的5000万次，一年内增长30倍，百度智能云营收达49亿元，同比增长11%，AI相关收入占比持续提升至超11%。阿里云季度营收增长至265.49亿元人民币，同比增长6%。其中，AI相关产品收入实现三位数增长。

两年的时间，对于一个技术应用来说还不够长，最重要的是模型还需要打磨并渗透到现有的业务中，推向用户。这需要一定的短期的技巧和长期的耐心。

第三阶段：推荐到应用层的变革

但如果说大模型的牌桌最终可能属于实力巨头，那么在经过3-5年的技术发展之后，各家始终要面对的就是让更多的下游企业运营大模型，实现成本回收，更重要的是真正让大模型经受来自最终端用户的检验。

已经有多个模型的实际应用方向吸引众多公司尝试，如AI Coding，侧重模型的逻辑思维和编码能力，大大降低互联网产品开发门槛。

AI Agent，突破Chatbot框架，更广泛的发挥大模型的能力走入实际应用中，谷歌的Project Mariner是一个AI代理，能够帮助用户查找航班和酒店、购买家庭用品和寻找食谱。

AI代理概念被业内普遍看好，但具体定义尚未达成统一共识，一个普遍的观点是，AI代理除了能回答问题，还需要能跨越多个系统执行复杂任务。AI机器人，通过人机对话接口来辅助失能人群和替代劳动密集型岗位。

其中尤其以AI Agent最受关注，甚至微软和谷歌也已经在进行相关部署。毕竟有了代理，能极大的将用户从PromptEnginering中解放出来，让模型能力的发挥不再受制于输入方式的限制。

就像一场奥林匹克运动会，有些赛场会吸引大多数人的目光，有些赛场小众人群关注，但不管哪个赛场都可以决出实实在在的金牌。

大模型赛场在巨头你来我往的争夺之外，还有一个“应用赛场”也格外值得关注。AI教育，以Duolingo、Speak等明星企业为蓝本，AI语音+大模型*替代了“外教”这一角色，为用户提供了*的口语训练和单词记忆功能。

AI陪伴成为了收入和用户体量上受益*的赛道。尽管上不了大台面，但这个赛道内的公司纷纷赚得盆满钵满，AI Dating（Rizz、Blush）、Talkie、Character AI名利双收。

AI营销：仅是LLM就足以在投放素材上大大解放营销人员，Meta早就在其营销神态产品中应用了AI创意生成，Pinterest也上线了自己的大模型产品PinterseCanvas帮助广告主进行创意和素材生成。除了生成素材，大模型还可以帮助广告主从缜密的营销活动设置中解放出来，Applovin和Meta的投放流程自动化产品已经做到了广告主只需要设置推广产品和预算、投放地区和人群等基本营销条件，大模型自动生成营销活动、广告投放以及最终的投放数据分析，甚至连具有一定门槛的AB测试都可以用模型实现，大大解放了广告主的人力配置。

最有“钱景”的方向——SAAS。如果要选择一个第二赛场的*受益者，那中小创业公司必然在列。Reddit论坛和HackerNews上，不断有个人开发者个小团队利用大模型技术，这类应用简单小巧应用覆盖的范围窄，一般都是基于成熟大模型，解决特定的效率问题，如广告文案修改和脚本润色、故事思维拓展等。

未来还可能有第四阶段，大模型的应用已经推进到终端，在各种应用层面掀起一场自上而下的效率改革，这恐怕不是三五年的时间可以实现的了。

02、起飞的枷锁：算力和成本

我们划分大模型的发展阶段，却始终没提到伴随这股风潮而再次火起来的算力问题。2023年，OpenAI奥特曼指出，全球AI运算量每隔18个月就会提升一倍，英伟达黄仁勋在2024年宣布，摩尔定律已经失效，GPU效能每两年将增加一倍以上。除了算力还有模型训练成本问题。大模型训练的成本有多高？根据报道2024年，Anthropic的模型训练和扩展成本超过27亿美元，尽管大模型相关的融资屡见不鲜，融资金额也屡创新高，但随着可预见的未来越来越清晰，以及各大模型厂商几乎同步的遇到算力和应用问题，不少企业无法再无门槛的拿到融资，由此出现了资金吃紧和运营困难的情况。文生图模型StableDiffusion的面世让StabilityAI广为认知，但在2024年也出现财务困境，公司几乎难以为继。

03、国内大模型隐忧

隐忧之一，漫长的投入期，要还是不要？

国内的大模型赛场用几个词形容最为合适，起步晚，赶得紧，走得急，落的快。

时至今日，可以说大模型竞赛进入了第三阶段，多模态能力的比拼正在慢慢进入尾声，可以说在这个阶段国内厂商并不落后。但我们同时又可以看到，国外即使是基础的大模型仍然在迭代中，参数增强、算力优化等等。甚至Google在经历了Gemini被各种讽刺后，仍然推出了Gemni2.0，实现原生多模态输入输出，让一众使用者赞叹不已。根据我们多次对比使用来看Gemini2.0比1.5完成了质的飞跃，甚至在某些应用中比ChatGPT-o1更令人满意，真正让人体验到了“推理模型”的魅力，在给出应答结果的时候还会同时给出next level的参考。

回到国内无论是六小龙还是新旧BAT似乎同步遇到了瓶颈——预训练还要不要做，推理模型还要投入多久？这漫长看不到头的投入期，让前几年纷纷降本增效的各大公司犹豫不决。

国内的商业环境以及上市公司的股东们是否会允许大模型近乎看不到回报的投入？

早在2023年下半年以及2024年上半年的多次财报电话会议中Meta、微软、谷歌等公司的分析师就多次询问大模型投入回报率，以及投入是否足够的时候，各个公司的管理层顶住了投资者的压力没有在预算上砍价。但国内呢，能够顶住投资者投下来的压力吗？要知道国内至今没有一家巨头在财报中明确给出大模型带来的收益。

隐忧之二，成本回收。

国内市场来讲，大模型训练和应用缺乏有效的应用场景来回收投入成本，尽管这点在国外也并不鲜见，但国内成本回收问题尤其令人忧心。近期百川智能首席营销官洪涛离职可能就是这一隐忧的间接体现。

以互联网行业为例，国内缺乏一个成熟的在线广告行业应用场景。Meta和Applovin已经证明了大模型在广告营销方面的巨大潜力，并且已经在逐渐从底层再次给这个成熟巨大的市场添一把火。国内首先缺乏一个有一定覆盖度的广告平台，几乎都是既当运动员又当裁判，营销效果透明性较差。

其次，大模型成效明显的SAAS行业，在国内的发展也乏善可陈。国外像Salesforce、Snowflake以及刚刚上市的ServiceTitan这样提供互联网云计算、云存储和信息数据服务的saas厂商，这类toB的公司可以融合和触达更多的中小企业的云服务和计算需求，给大模型应用提供广阔的的平台。

国内大模型厂商商业化有几个方向：其一会员订阅，即每日免费次数使用完之后，结果更多次数需要按月付费。

其二，大模型训练，按token收费。其他企业使用大模型厂商的模型接口来完成自身功能改善，根据对话量向模型厂商付费。例如，在社交产品中上线对话机器人，如微博的评论罗伯特，或者供自家用户文生图或者文生视频等UGC场景。这些几乎都依赖于接口调用量，这是各大模型厂商竞争最激烈的战场。

价格战嘛，并不陌生，这恐怕是国内商战最简单有效的套路了，放到大模型应用这也同样好使。可问题是在价格战背后，模型的效果的提升还能有保证吗？甚至于我们认为，字节在大模型战场起步晚、追赶快，就是赶上了国内大模型价格刺刀战中，各家都暂时把模型质量放到一边这个时间窗口。

根据历史上各类“风口之战”的经验，没有有效的商业模式来收回模型成本，企业不会持续投入，甚至理想情况看，国内的大模型之战的结果可能变成另一个“中国安卓机”市场的现状。

04、基本结论