有人调侃,比起“造福人类”,大模型更应该先呼吁“给我场景”。
但在无问芯穹看来,经历了互联网时代的高速发展,中国市场不缺应用场景,大模型的落地难,症结在于行业内正在持续遭遇的算力难题。
无问芯穹认为,如果能够有效整合和优化这些算力资源,并设计出好的利用方式和工具,将极大地缓解大模型企业们面临的算力紧缺状况,帮助他们把今天的算力储备,转化为明天的竞争力。
成立于2023年5月,无问芯穹创始团队来自清华大学电子工程系,致力于成为大模型落地过程中的"M×N"中间层,以打造大模型软硬件一体化方案,链接上下游,建立AGI(通用人工智能)时代大模型基础设施。
成立不到一年,无问芯穹身后已经聚集一支长长的投资人队伍,包括红杉中国、真格基金、启明创投、徐汇资本等十余家创投机构。
3月31日,在上海,一向低调的无问芯穹发起人汪玉,携联创团队首次集体公开亮相。这一次,他们正式发布“无穹Infini-AI”大模型开发与服务平台。
4月起正式开放全量注册
百亿tokens免费配额
投资界了解到,基于多芯片算力底座,无穹Infini-AI大模型开发与服务平台于4月起正式开放全量注册,并给所有实名注册的个人和企业用户提供百亿tokens免费配额。
开发者可以在这个平台上体验、对比各种模型能力和芯片效果,通过简单拖拽各种参数按钮的动作,就能精调出更贴合业务的大模型并部署在无穹Infini-AI上,再以非常优惠的千token单价向用户提供服务。
目前,无穹Infini-AI已支持了Baichuan2、ChatGLM2、ChatGLM3、ChatGLM3闭源模型、Llama2、Qwen、Qwen1.5系列等共20多个模型,以及AMD、壁仞、寒武纪、燧原、天数智芯、沐曦、摩尔线程、NVIDIA等10余种计算卡,支持多模型与多芯片之间的软硬件联合优化和统一部署。第三方平台或自定义训练、微调而来的模型也可以无缝迁移托管到无穹Infini-AI,并获得细粒度定制化的按token计费方案。
“我们对模型品牌和芯片品牌的覆盖率还会持续提升,随着时间的推移,无穹Infini-AI的性价比优势会越来越突出。”无问芯穹联合创始人兼CEO夏立雪表示,未来无穹Infini-AI还将支持更多模型与算力生态伙伴的产品上架,让更多大模型开发者能够‘花小钱、用大池’,持续降低AI应用的落地成本。
一个月前,同道猎聘在部分城市发布了AI驱动的数字人面试官,且还有更多的AI功能正在筹备中,是由无问芯穹提供的弹性算力使用方案,并在无问芯穹的平台上基于开源大模型微调而成。相比市面上的其他方案,实现了更高的推理加速,也大幅降低了新功能上线的成本。
夏立雪表示,这一效果让无穹团队很有信心,所以除了开放全量注册,也正式启动了大算力需求方的测试邀请,提供更具性价比的算力、且在算法和硬件上更有纵深的算力优化服务。
算力难,有解法了
源自多芯片优化实力
“市面上有很多未被激活的有效算力,硬件本身差距在快速缩小,但大家在使用时总会遇到‘生态问题’。”夏立雪说,这是因为硬件的迭代速度总是比软件更慢、价格更高,软件开发者不希望工作中出现除自身研发工作之外的其他“变量”,因而总是会倾向于直接使用有成熟生态的芯片。
无问芯穹希望帮助所有做大模型的团队“控制变量”,即在使用无问芯穹的算力服务时,用户不需要也不会感觉到底层算力的品牌差异。
成立不足一年的无问芯穹,何以能够在这么短时间内跑通多种计算卡上的性能优化?
2022年底,大模型引发社会广泛关注后,夏立雪和他的导师汪玉认为,国内整体算力水平距离国际先进还有明显差距,光靠芯片工艺提升或是多元芯片的迭代已远远不够,需要建立一个大模型生态系统,让不同模型能自动部署到不同硬件上,让各种算力得到有效利用。
一年后,无问芯穹宣布了在英伟达GPU和AMD等芯片上取得的优化效果,取得了当时*的计算加速效果,实现了大模型任务2-4倍的推理速度提升。随后,AMD中国宣布与无问芯穹达成战略合作关系,双方将携手联合提高商用AI应用性能。
两年之后,无问芯穹在本次发布会上展示了其在10种芯片上的性能优化数据,在每张卡上都显示已取得了目前行业内*的性能优化效果。
“我们与各个模型、芯片伙伴都建立了强信任关系,”夏立雪对记者说:“一方面来自于我们面向大模型的计算优化实力,另一方面无问芯穹非常注重保护伙伴的数据安全。无问芯穹会持续保持中立性,并且也不会与客户产生利益冲突,这是我们业务开展的基础。”
从云到端,将软硬件一体联合优化进行到底
“Transformer统一了这一轮的模型结构,并且表现出持续取得应用突破的趋势。”汪玉在开场发言中说:“从前在AI 1.0时代,我们做上一家公司,只能做很小一部分AI任务。今时不同往日,大模型结构统一了,依靠生态建立起来的硬件壁垒正在‘变薄’。”
得益于世界范围内正涌起的AI浪潮,以及中国市场的独特机会,无问芯穹面对的是一次巨大的技术机遇。Transformer在设计时天然基于并行计算架构,规模越大的大模型带来的智能效果越好,使用的人越多,其所需的计算量也越大。
“无问芯穹正在做的是‘大模型原生’的加速技术栈。”无问芯穹的联合创始人兼CTO颜深根表示,大模型落地依赖算法、算力、数据,还有系统。算力决定了大模型的速度,设计优良的系统则能释放出更多硬件潜力。无问芯穹的团队曾搭建过数万片GPU级的大规模高性能AI计算平台,具备万卡纳管能力,并基于自运营集群成功搭建了云管系统,已实现跨域多云间的统一调度。
“在端侧,人们则更加倾向于快速将大模型的能力落到人机交互的界面上,提升实用体验。”无问芯穹联合创始人兼首席科学家戴国浩认为,未来,凡是有算力的地方,都会有AGI级别的智能涌现。而每一个端上的智能来源,就是大模型专用处理器LPU。戴国浩宣布,“无穹LPU将于2025年面世。”
大模型处理器LPU可以提升大模型在各种端侧硬件上的能效与速度。戴国浩在发布会上向观众展示了“一张卡跑大模型”,作为LPU的基础,其团队于今年1月初推出的全球*部署于FPGA的大模型推理IP,通过大模型高效压缩的软硬件协同优化技术,使得LLaMA2-7B模型的FPGA部署成本从4块卡减少至1块卡,并且性价比与能效比均高于同等工艺GPU。未来,无问芯穹的端侧大模型专用处理器LPU,可以被模块化地集成到各类端侧芯片中。
发布会尾声,无问芯穹宣布与紫光展锐签署大模型端侧部署战略合作,双方宣布将共同探索大模型在端上的部署与性能提升。
会上,无问芯穹还宣布了与燧原科技共同发布i20千卡集群战略合作,无穹Infini-AI平台与燧原科技i20千卡集群已顺利完成完成系统级融合。通过无穹Infini-AI平台,可以灵活调用燧原科技智算集群,完成大模型推理任务。
随后,无问芯穹与摩尔线程签署战略合作备忘录,双方将开展深度合作。目前无穹Infini-AI平台和基于摩尔线程大模型智算加速卡MTT S4000的千卡集群已顺利完成系统级融合。通过无穹Infini-AI平台,可以灵活调用摩尔线程夸娥千卡智算集群,完成大模型高效训练与微调任务。
此外,无问芯穹还宣布与智谱AI联合发布大模型万卡训推计划,双方将携手共建大模型训推万卡集群,在大模型训练推理优化、算力集群性能提升等方面展开深度合作。
该万卡集群将面向大模型行业应用,提供端到端模型与算力服务,围绕技术创新和产业发展需求,以算力集群赋能行业创新。