数字经济时代,算力是核心生产力,算法是重要生产工具,数据是关键生产资料。算力决定了数据处理能力的强弱。算力芯片是算力的具体载体。而AIGC大模型是在智能算力驱动下最为典型的重大创新。
AIGC全称为 AI-Generated Content(人工智能生成内容),指基于生成对抗网络 GAN、大型 预训练模型等人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容的技术。AIGC 能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从而大幅降低内容生成的边际成本,目前已经在文字、语音、代码、图像、视频、机器人动作等多模态场景上有了范例。它被认为是继 PGC、UGC 之后的新型内容创作方式,2022 年 AIGC 发展迅猛。
AIGC 的技术底座是“大型语言模型(Large Language Models,简称为“大模型”)”。随着大模型的迭代,所需的参数呈指数级增长。各模态智能数据的训练到推理均需要算力的加持,随着模型逐渐复杂化,所对应的算力需求也水涨船高,智能芯片市场有望迎来增量需求的支撑。
提及智能芯片,国内不少企业正在崛起,寒武纪便是其中之一。
自成立以来,寒武纪一直专注于人工智能芯片产品的研发与技术创新,致力于打造人工智能领域的核心处理器芯片,让机器更好地理解和服务人类。寒武纪的主营业务是应用于各类云服务器、边缘计算设备、终端设备中人工智能核心芯片的研发、设计和销售,以及为客户提供丰富的芯片产品。目前,寒武纪的主要产品线包括云端产品线、边缘产品线、IP 授权及软件。
纵观过去几年,寒武纪快速实现了技术的产业化输出,先后推出了用于终端场景的寒武纪 1A、寒武纪 1H、寒武纪 1M 系列智能处理器;基于思元 100、思元 270、思元 290 芯片和思元 370 的云端智能加速卡系列产品;基于思元 220 芯片的边缘智能加速卡。其中,寒武纪智能处理器 IP 产品已集成于超过 1 亿台智能手机及其他智能终端设备中,思元系列产品也已应用于浪潮、 联想等多家服务器厂商的产品中。此外,思元 270 芯片、思元 290 芯片还分别获得第六届世界互联网大会、世界人工智能大会颁布的奖项。思元 220 自发布以来,累计销量突破百万片。
2022年寒武纪持续加大产品研发力度。硬件方面,寒武纪基于思元 370 云端智能芯片,推出了新款智能加速卡 MLU370-X8/M8、训练整机玄思 1001 智能加速器(MLU-X1001)。
MLU370-X8/M8两款加速卡均支持寒武纪 MLU-Link 芯片间互联,可满足多样化人工智能模型的训练和推理需求。而寒武纪玄思 1001 智能加速器,在 2U 机箱内集成 4 张 MLU370-M8 智能加速卡,MLU-Link 互联接口,实现智能算力在数据中心纵向扩展;可广泛支持 FP16、FP32 等不同数据精度的智能算力,提供大容量内存,支撑智能模型的分布式训练需求,是智能算力的高集成度平台,已在生物信息、医疗影像、语言模型等行业及科研场景广泛应用。
据寒武纪2022年度报告显示,在互联网行业,寒武纪的思元 370 芯片及加速卡与数家头部互联网企业在视觉、语音、图文识别、自然语言处理等场景下完成适配工作后,已经进入了批量销售环节。此外,寒武纪与某互联网企业进行了大模型训练的初步合作,目前仍处于技术探索和测试阶段。
2022年寒武纪也在持续推进通用性训练软件栈的研发和改进工作。功能上,支撑了寒武纪新的硬件平台以及 FP19 数据精度,支撑了新的 PyTorch 版本,算子覆盖度达到 80%,TensorFlow 的算子数量及交付网络模型均有所增加。性能上,PyTorch 框架层通过 IO 类算子融合等优化方式,显著提升了带宽密集类模型的性能;TensorFlow 通过支持 XLA,对 Bert 模型实现了近两倍的性能提升。在大语言模型领域,提升了单机多卡、多机多卡的混合分布式训练效率,完整支持了商用大模型部署,达到业界*水平。
值得注意的是,寒武纪所研发的通用型智能芯片产品,具备灵活的指令集和精巧的处理器架构,技术壁垒高但应用面广,可覆盖人工智能领域高度多样化的应用场景(如视觉、语音、自然语言理解、传统机器学习、生成式人工智能等)。与 CPU、GPU 等芯片相比,通用型智能芯片能够更好地匹配和支持人工智能算法中的关键运算操作,在性能和功耗上存在显著优势。