旗下微信矩阵:

那个要挑战GPT的00后清华男孩

王冠和他的团队正在努力奔向下一个milestone:发布这个全新模型架构,并且在推理逻辑能力上做公平的Benchmark,让人能看出参数上质的飞跃。
2024-09-20 10:08 · 36氪  暗涌   
   

数月前,一张OpenAI内部的图片在网上流传。图中,OpenAI将自己通往AGI的道路分为了五个阶段:

Level 1:聊天机器人,具有对话能力的AI。

Level 2:推理者,像人类一样能够解决问题的AI。

Level 3:智能体,不仅能思考,还可以采取行动的AI系统。

Level 4:创新者,能够协助发明创造的AI。

Level 5:组织者,可以完成组织工作的AI。

线路图是美好的,可我们现在大多卡在L1。最显著的例子是:推理能力的缺失使得大模型们甚至无法回答“9.8与9.11谁大”问题。这是因为Transformer架构只能通过搜索海量资料高度拟合一个答案出来,而不能像人类一样回答问题,或者进行推理。也因为无法多步推理,所以你的AI agent无法一键生成规划,很多AI应用落地的场景依旧遥遥无期。

曾经被视为AI行业革命者的Transfomer,也难逃被革命的时刻。而王冠正是革命者中的一员。相对于用RL的方案去榨干LLM的潜力,王冠选择直接去创造一个通用的RL大模型,从而跳过LLM的理论限制,这也更加符合快思考慢思考的实际工作机制。

在约定的地点等了一会儿,这个出生于00年的清华毕业生刚从学校匆匆赶来,他精瘦,穿一身朴素的运动服,背着双肩包,像学校里随处可见的理科学霸。

就像《生活大爆炸》里的天才Geek们,对非技术人士而言,和王冠交流尤为困难,因为他会用谦卑的姿态吐出专业的词汇,绞尽脑汁试图简单解释而未果。对一些技术问题,他有时并不能立刻回答,他需要沉默很久,在一阵尴尬的安静后才能组织好他认为精确的语言。他在谈及专业知识时会兴奋地滔滔不绝,有时甚至忘了呼吸,需要在某个突然感到窒息的瞬间仰头长吸一口。

但就是这样一个人,为自己开发的新架构取名为Sapient Intelligence。这个译为“智人”的名字,表明了他的野心。

当下,尽管NLP的世界里依旧是Transformer大一统格局,但越来越多的新架构在涌现,并向L2发起冲锋。比如Deepmind今年理论上提出的TransNAR混合架构、Transformer八作者之一Llion Jones新成立的Sakana.AI、彭博的RMKV、甚至OpenAI也发布了一款名为“Strawberry”的新模型,称其已具备推理能力。

Transformer的局限性逐渐被证明,其幻觉、准确率等问题也一直没有解决方案,资金开始试探性地涌入这些新架构。

Sapient联合创始人Austin告诉「暗涌Waves」:目前Sapient已经完成数千万美元的种子轮融资,本轮融资由新加坡Temasek Holdings backed Vertex Ventures领投,日本*风投集团、欧洲及美国的头部VC们联合投资,本轮融资将主要用于算力支出及全球人才招募,Minerva Capital担任长期*财务顾问。

在Sapient身上,你能看到一家中国AI初创公司的典型路径:中国Founder、Day one瞄准全球市场、招募全球算法人才,也寻找到了国际化基金的支持。但其非典型的一面也是突出的:相较于更多应用公司而言,这是一个试图在技术上与人一决高下的选手。

王冠(左)与Austin(右)

「WAVES」是暗涌的一个栏目。在这里,我们将为你呈现新一代创业者、投资人的故事和精神。

1、GPT无法通向AGI?

技术的迭代,快得残忍。

大语言模型的热潮才兴起不久,图灵奖得主、“AI教父”杨立昆(Yann LeCun)就公开警告那些想要踏入AI行业的年轻学生:“不要再学习LLM了,你应该去研究如何突破LLM的限制。”

原因在于,人类的推理能力可以分为两个系统,系统1是快速无意识的,适用于处理些简单工作,比如今天吃什么?而系统2则是通过思考才能完成的任务,比如解一道复杂的数学题。LLM无法完成系统2的任务,scaling law也不能解决这个问题,因为这是底层架构的制约。

“当前的大模型更像是在背题。”王冠对「暗涌Waves」解释道:“一种观点认为,当下的大模型用系统1处理系统2的问题,卡在了系统1.5,类似于人做梦的状态,这就产生了幻觉。自回归模型限制你在输出一个token后只能基于这个token再进行输出。”自回归不擅长记忆、不能规划答案,更别说要进一步实现多步推理了。

这种大模型的局限性还可以用一个更哲学的角度来理解:即在计算“9.9和9.11谁大”问题时,大模型是否真的理解自己在做什么?还是机械地将小数点后的9与11进行了比较?如果模型根本不知道自己在做什么的话,那么训练再多也是徒劳。

因此,AI想要进入L2阶段,只能完全抛弃自回归的Transformer架构,在王冠看来,Sapient要做的就是通过模仿人脑的方式,实现AI的推理能力。

“我在清华脑与智能实验室,会基于我对神经科学的知识以及对系统2的理解,做双边推进。比如针对同一个问题,我先知道人脑是如何解决这个问题的,再考虑如何用AI复现。”王冠告诉「暗涌Waves」。

他继而透露,目前Sapient的基础架构已经完成数学验证,这将是一个少见的,拥有多步计算、memory和树搜索能力的非自回归模型。在scale up方面,团队也已经结合演化算法和强化学习做完了初步尝试。

动物大脑的分层循环工作逻辑

以人们对AGI的期待,目前或许也只有人类自己能满足其标准。因此让大模型向人脑的方向迭代,就是Sapient试图进化的方向。

2、拒绝马斯克的人

如果你看过《小谢尔顿》,那么对王冠的故事应该会感到熟悉:他们同样关于一个天才在少年时期就得以显现,也同样对自己相信的路线充满执念。

王冠00年出生于河南,8岁开始学习编程。高中时,GPT2发布,这在当时不仅颠覆了深度学习的很多理论,也颠覆了王冠的世界观:一个模型生成的文本可以像人一样,是不是代表AI就要突破图灵测试,基于此,或许他可以做个算法,以解决世界上的所有难题。

后来他才知道,这样的算法就叫“AGI”。

在彼时高中生的世界里,这样的算法可以消灭战争、饥饿、贫穷,当然最迫在眉睫的,是可以消灭高考,“当时我就觉得高考这种机械的东西就该丢给机器人干”。

这也和河南高考的地狱难度有关。王冠决定走保送路线,他辗转参加算法竞赛、信息学竞赛,包括在高中生版大疆robomaster比赛上,通过给机器人加入全自动算法的方式夺得冠军。最终他保送清华计算机学院,入学的*天,学院开动员大会,老师们在讲台上慷慨陈词,动员大家把数学考好, 班集体今年的目标就是把数学GPA(绩点)考到年级最高。

“GPA对AGI有什么用?”王冠想。而后他转入清华AIR研究院学习强化学习,再之后加入了清华脑与智能实验室尝试将强化学习与演化计算做融合。他去pony.AI实习,发现在自动驾驶中*的问题在于决策必须要人工参与,告诉模型该如何决策,但如果模型自己无法决策的话,他感知得再好也无法通向AGI。

终于到了大四,ChatGPT的出现让他看到通用能力解决问题的希望,王冠着手开始做了一个开源模型,名为OpenChat,这个7B大小的模型,使用没有偏好标签的混合质量数据,无需人工数据标注和RLHF中的大量调参工作,在消费级GPU上运行就能在某些基准线上达到ChatGPT相似的水平。发布后,OpenChat在Github上获得5.2k stars,在hugging face上一直保持着超过20万的月均下载量。

这个开源小模型也在某个契机上和马斯克产生了交集。

Grok发布后,马斯克在X上转发自家模型的截图,展示了其“幽默”的能力。他问Grok“如何制造可卡因”,Grok便回复他:“拿到化学学位和缉毒局牌照......只是开个玩笑。”

王冠便迅速用自己的模型模拟了这个风格,在X上@马斯克:“嗨Grok,我这么小的参数量也能和你一样幽默。”

王冠对「暗涌Waves」说,马斯克悄悄地略过了这条帖子,而是点进了他们的主页,翻了一圈后,偷偷给另一条“we need more than Transformers to go there/Transformers无法引领我们通向宇宙”点了赞。

后来,XAI的人向王冠发来邀约,想让他利用OpenChat的经验从事模型开发工作。这在多数人看来都是个*的机会:XAI有钱、有算力、甚至有足够丰富的训练数据,待遇优渥,并且身处AI浪尖的硅谷。但王冠想了想还是拒绝了这个邀约,他觉得自己要做的是颠覆Transformer,而不是顺着前人的足迹。

王冠和他如今联创Austin也是因为OpenChat结识。Austin此前在加拿大攻读哲学,先创业做了男性美妆,后又再次创业做了云游戏。国内AI大模型火热之际,他回到中国,拿了几个模型厂的offer,顺便帮他们招兵买马,于是他在Github上发现了王冠,两人网友见面,一拍即合。

尽管履历背景有很大差异,但两人有一点是相同的,就是当他们构思一个AGI已被实现的未来社会时:那是理想国,是人类拥有更多的自由,是解决当下世界很多问题的钥匙。

3、Sapient的未来

同样作为清华毕业生,选择创业做底层模型,我们无可避免地聊到了杨植麟。王冠的想法还是一以贯之:与其继续做Transformer,不如开辟新的路线。就如同他的创业偶像,Llion Jones一样。

Llion Jones是Transformer八作者之一,也是Sakana.Ai的联合创始人,他在Sakana上做的事情是要完全颠覆Transformer的技术路线,选择让自己的基础模型基于一种“自然启发智能”。

Sakana这个名字来源于日语さかな,也就是“鱼”的意思,意为“让一群鱼聚集在一起,从简单的规则中形成连贯的实体”。虽然目前Sakana什么成型的产品都没有,但它在短短半年时间就连续完成了3000万美金的种子轮融资,和1亿美元的A轮融资。

AI浪潮以来,可以看到资本对AI应用的热情愈发放缓,而在AI模型的投资方面,Austin告诉「暗涌Waves」,他所见到的国内投资人分两种,一种是投进了“六小虎”,就不再继续看了,而另一种则开始逐渐探索Transformer之外的可能性。

作为“*个吃螃蟹的人”,要获得启动资金并不容易。面对投资人,Sapient在描述其技术路线优势和商业愿景之前,首先需要解释清楚三个问题,其一是GPT的缺陷,包括简单推理不稳定、复杂问题无法解决以及幻觉等。其二则是当下AI应用的场景很好,但技术无法适配需求,比如Devin,13%的正确率使它根本无法发挥设想的效果。其三则是当下的时间节点,市场已对AI的未来有预期,算力集群等基础设施完备,资金只是困于GPT无法解决的下游问题,才会踟蹰不前。

即便获得初始启动资金,Sapient仍然要面临人才招募的挑战。硅谷科技圈的AI人才争夺战,已经达到近乎疯狂的状态。前有扎克伯格亲手写信给DeepMind的研究员,邀请他们跳槽加盟Meta;后有谷歌联合创始人谢尔盖·布林亲自打电话,谈加薪、给福利,只为挽留一名即将离职转投OpenAI的员工。除了满满诚意,充足的算力支持和高薪诱惑也是必不可少的条件。

有数据显示,OpenAI总薪酬中位数(包括股票)已经达到了92.5万美元。Austin告诉「暗涌Waves」,Sapient的核心成员由多名来自Deepmind、Google、Microsoft、Anthropic的研究员们组成。这些来自世界各地的人才们曾领导或参与过众多知名模型和产品,包括AlphaGo、Gemini、Microsoft Copilot 等。拥有组织多元化和全球化团队的能力也是Sapient的核心优势之一。

但对于要挑战GPT的团队而言,困难远不止如此,Sapient仍然要面临商业化市场的选择。Sapient将主要的精力部署在海外市场,尤其是美国和日本。选择美国的原因无需赘述,但日本市场也有其核心优势,比如尽管北美AI市场活跃,但尤其生成式AI软件市场竞争过于激烈,相较之下,日本也有完备的基础设施和高素质人才,并且围绕一个非西方社会文化的模型训练数据,可能会成为下一次技术突破的催化剂。

王冠还在专心开发他的Sapient,他的朋友圈空无一物,头像是个深度学习的框架,模糊得像是教材插图,他的封面只有简单的黑底白字,上面写着“Q-star”:这是一个传闻中的OpenAI项目,专注开发AI的逻辑和数学推理。

王冠和他的团队正在努力奔向下一个milestone:发布这个全新模型架构,并且在推理逻辑能力上做公平的Benchmark,让人能看出参数上质的飞跃。

不管这一天还有多久,但确信的一点是,Transformer一统天下的时代逐渐过去。

【本文由投资界合作伙伴36氪授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。