算力芯片的第三架马车，未来几何

尽管存储和网络在不断进步，但数据中心的计算能力却似乎开始跟不上数据增长的步伐。

2024年06月20日 14时 · 微信公众号：中科创星　　　

2024年6月19日，「中科驭数」发布了其研发的第三代DPU芯片K2-Pro。作为一款纯国产的高性能解决方案，K2-Pro展现了其在云计算、智能计算、及高性能计算等领域的应用潜力。

借此机会，我们也来分享一些中科创星关于DPU领域的看法和观点。

数字经济开启算力时代

据华为GIV预测，2030年人类将迎来YB数据时代，全球算力规模达到56ZFlops,平均年增速达到65%。与此同时，我国不仅拥有位居全球第二的算力规模，且计算产业的规模已经占据了电子信息制造业的20%以上。换言之，在这个由移动互联网、信息技术和物联网共同编织的网络时代，我们正经历着数据量的指数级爆发的趋势。

然而，对现代IT基础设施来说，这一升级过程就像一个不断扩大的黑洞，其需求缺口正在不断放大。

具体来看，算力基础设施的架构由三个互相依存的支柱构成的：计算、存储和网络。这三大技术领域，就像数字世界的三大基石，共同支撑着我们日益增长的数据处理需求。

当前，存储技术的进步让我们能够以前所未有的速度和容量保存信息，网络技术的发展则让数据传输变得更加迅速和可靠。

但当我们将目光转向数据中心的计算能力时，我们会发现一个逐渐显现的问题：尽管存储和网络在不断进步，但数据中心的计算能力却似乎开始跟不上数据增长的步伐。尤其是随着数据中心规模的扩大和网络流量的增加，传统的网络接口卡（NIC）可能无法满足高速数据处理的需求。

打个比方，数据中心又像一个精密的神经系统，将数据中心内所有的计算和存储单元紧密地连接在一起，构成了一个高效的“交通枢纽”，它的效率和能力直接影响着数据中心的性能。这就像一个高速运转的引擎，突然遭遇了燃料供应不足的问题。

另一方面，软件定义网络（SDN）和网络功能虚拟化（NFV）的兴起确实对数据中心的网络架构和硬件资源提出了新的要求。例如，由于SDN和NFV需要在服务器上运行多个虚拟网络功能，如Open vSwitch（OVS），这增加了对CPU核心的需求。如果每个核心都需要高效的网络连接，那么支撑CPU的网络带宽需求将从25Gbps增加到更高，如100Gbps、200Gbps甚至更高。

正是在上述背景下，我们越来越需要一种能够应对大量数据和复杂任务的网络设备，这就是智能网卡（smart NIC）出现的原因。

与传统网卡相比，智能网卡不仅能够处理高速网络数据流，还能通过编程实现特定功能，从而减轻CPU的负担。

换言之，传统网卡就像是一个没有特殊技能的邮差，它只能将邮件（数据包）送到你的门口（服务器），之后所有的分类和处理工作都需要你家里的管家（CPU）来完成。这在邮件不多的时候还好，但如果邮件数量激增，管家就会非常忙碌。

而智能网卡就像是一个多才多艺的邮差，不仅能送信，还能在路上就帮你分类好邮件，甚至能根据你的喜好预处理一些邮件内容。这样，当你收到邮件时，大部分工作已经完成，管家只需要做最后的整理。

近年来，随着无人驾驶、机器人等技术的快速发展，人工智能市场正迅速膨胀，但我们面临的挑战也越来越大，比如，需要处理的数据量急剧增加，模型变得更加复杂，智能网卡也遇到了它的瓶颈。

为了突破这些瓶颈，我们需要更强大的计算能力。于是，智能网卡开始向更高级的形式——DPU（Data Processing Unit）演进。

算力的“第三驾马车”

如前文所言，随着数字化时代的到来，我们对计算的需求像搭上火箭一样飙升，但CPU和GPU在忙于处理大量数据时，却不得不分心去做一些“杂活”，比如数据的存储和传输。

然而，相关研究指出，CPU在忙碌的工作中，大约有30%的时间其实是被这些非计算任务占用了。这就像是让一位科学家在实验室里同时还要处理清洁工作，显然会影响他的研究效率。

反观DPU，作为一种新型的专用处理器，它的目标就是卸载CPU和GPU的非计算任务，让它们能够更专注于执行核心计算任务，从而释放CPU和GPU的计算能力，实现算力基础设施以计算为中心的发展目标。

实际上，从设计理念来看，DPU的设计方法被称为“领域专用架构”（DSA）——就像定制的衣服更贴合身体，DPU在处理特定任务时也更加得心应手。例如，一个针对网络数据处理优化的DPU，可以比通用CPU快10倍以上。

此外，DPU还有一个像变形金刚一样的本领——“软件定义”。这意味着DPU的功能不是一成不变的，而是可以通过软件更新来调整，就像给DPU装上了一个灵活的大脑。

最后，DPU还有一个重要特性，那就是它支持资源的虚拟化。这就好比把一个大蛋糕切成许多小块，每个人都能分到一块，而且可以根据自己的口味选择不同的口味。在数据中心，这意味着可以将一个大的计算资源池分割成多个小的部分，每个部分都可以独立使用，从而提高资源的利用率。据Cisco的数据显示，通过虚拟化技术，企业可以减少高达40%的服务器数量，同时提高资源利用率。

因此， DPU的主要核心功能也就得以凸显：

1.算力释放：在传统的计算机架构中，CPU就像一个忙碌的交通指挥员，需要不断地在内核和应用之间传递数据，这就像是在高峰时段指挥交通，很容易造成拥堵，会消耗大量的时间和精力，可导致高达30%的性能损耗。使用DPU后，CPU可以更高效地工作，减少性能瓶颈，避免因负载过大而出现故障。

2.算力卸载：算力卸载是DPU的另一个重要功能，它就像是给CPU减负的神奇助手。想象一下，如果一个工人既要搬运重物，又要操作复杂的机器，他很快就会筋疲力尽。CPU过去就是这样，它不仅要处理核心的计算任务，还要处理网络、存储、安全和管理等辅助功能，这些任务消耗了大量的算力资源。DPU通过接管这些辅助功能，使CPU能够专注于它最擅长的计算工作。据研究，DPU可以减少CPU在处理网络和存储任务时大约40%的算力消耗。

3.算力扩展：过去，依靠缩小芯片的工艺尺寸来提升CPU的性能，但当工艺达到3纳米级别后，这种提升变得越来越困难。面对后摩尔时代的挑战，业界开始转向分布式系统，通过扩大计算集群的规模、提升网络带宽和降低网络延迟来提升数据中心的整体算力。DPU在这个过程中扮演了重要角色，通过优化网络通信，有效避免了网络拥塞，降低了跨节点通信的延迟，提升了计算效率。

简而言之，DPU通过其定制化的设计理念、软件定义的灵活性和资源虚拟化的支持，为数据中心带来了更高的效率和性能，成为现代计算基础设施的关键组成部分。

例如，在数据中心领域，DPU能够快速处理网络数据包，就像是在高峰时段指挥交通的高手，确保数据流的畅通无阻。DPU还能加速存储操作和安全加密任务。根据实际案例，使用DPU可以提升数据中心的处理速度高达50%，同时降低能耗约20%。

再例如，在人工智能领域，特别是在深度学习模型的推理过程中，DPU能够快速处理图像和语音识别等任务，实现接近实时的AI应用。一部分研究显示，DPU在AI推理任务中能够提供比传统CPU快10倍以上的处理速度，这对于自动驾驶这类需要快速响应的应用场景至关重要。

DPU的发展现状及未来趋势

根据赛迪顾问发布的《中国DPU行业发展白皮书》显示，2020年全球DPU产业市场规模为30.5亿美元，预计到2025年将增长至245.3亿美元，年复合增长率为51.73%。同期，中国DPU市场规模预计将达到565.9亿元人民币，5年复合增长率达到170.6%。可以说，全球DPU市场处目前正处于景气周期之内。

为此，国内外企业在DPU方面进行了相当程度的探索。国外方面，英伟达（NVIDIA）、美满（Marvell）、英特尔（Intel）等几家国际芯片巨头集结研发团队并投入巨额资金，竞相推出DPU产品。

例如，2021年英特尔推出了基础设施处理器IPU（Infrastructure Processing Unit） Mount Evans——Mount Evans 融合了英特尔多代FPGA SmartNIC的研发经验，提供高性能网络和存储虚拟化卸载以及可编程数据包处理引擎，支持防火墙和虚拟路由等功能。

再例如，英伟达在2022年发布了第三代BlueField，并具备持续演进能力，演进路线以集成AI算力、增强 ARM能力以及升级网络速度带宽为主。

在此背景下，中国的DPU市场也正迅速崛起，展现出强劲的增长势头，一批有潜力的DPU芯片制造商开始崭露头角。而中科创星在这个领域也已经进行了一定的布局。

以中科创星天使轮项目「中科驭数」为例。早在2018年，「中科驭数」就展现出了其前瞻性思维，创新性地提出了软件定义加速器的技术路线（SDA），不仅研发了KPU（Kernel Processing Unit，核处理器）这一专用计算芯片架构，且还采用了软硬件协同的方法，构建了一个以KPU为核心的硬件数据库（Database）、网络运算加速（Network）和人工智能加速（AI）的“DNA”一体化加速产品体系。

正是基于软件定义KPU架构，「中科驭数」于2022年成功发布了的K2 DPU芯片——K2 DPU芯片设计以数据为中心，集成自研FlashNOC™流式片上互联架构，可实现数百个处理核互联，在2TB/S数据带宽下保证零阻塞数据传输。同时，在网络方面集成了2路10/25/100GE接口，主存储集成了四路DDR4，带宽可达50GB/S，容量达128GB。

经过1年半左右的研发升级，「中科驭数」又于近日发布了第三代DPU芯片K2-Pro。据发布会信息显示，本次「中科驭数」发布的K2-Pro采用自研架构，融合了网络卸载、存储卸载、安全卸载、计算卸载等功能，旨在提升数据中心的网络吞吐量、降低传输延时，提高数据传输效率，支撑数据中心规模的持续增长，可以为云计算、智能计算、高性能计算等场景提供纯国产高性能网络解决方案。

作为「中科驭数」上一代DPU芯片K2的量产版本，在数据处理能力上，K2-Pro的包处理速率提升至80Mpps，是原K2的两倍，这使得它在网络密集型应用中能够提供更高的吞吐量和更低的延迟。

其次，K2-Pro还增强了对复杂业务的支持，集成了包括网络卸载、流表卸载、存储卸载和RDMA网络卸载在内的多种硬件卸载引擎。这些引擎使得K2-Pro能够以轻量级控制面处理复杂的业务，将复杂服务网格的性能从400微秒提升至30微秒以内，实现了显著的性能飞跃。

另一方面，K2-Pro通过PPP（多协议处理）、NP（网络处理器）内核以及P4可编程架构，实现了业务与算力的灵活扩展，使用户能够根据需求动态调整系统配置，从而实现算力的自由伸缩。

K2-Pro还提供了全面的片上和板级管理系统，加强了资源管理和系统稳定性。在DPU的复杂应用场景中，K2-Pro的能耗降低了30%，实现了低功耗运行，进一步优化了能效比。

芯片之外，针对DPU的特定需求，如IO、数据处理能力、控制逻辑等，「中科驭数」还开发了专用扩展指令集KISA（Kernel-based Instruction Set Architecture）。KISA的创新之处在于，它首次在指令集层面支持敏捷异构处理，通过统一的指令集实现对多种异构处理核心的有效管理和调度。

目前，KISA指令集包括基础架构和针对DPU的专用处理扩展指令，如包解析、数据转发和表查询等。KISA已被应用于25个不同的应用场景，累计支持数百个用例，经过了充分的实践验证。

发布会上，「中科驭数」创始人鄢贵海表示：本次发布K2-Pro意味着对DPU的重新定义，而中科驭数的目标是为算力基础设施提供一流的DPU产品，解决算力资源的弹性扩展、高效互连、加速计算、统一运维等关键问题，打通数据中心算力的“堰塞湖”。

基于此，「中科驭数」不仅将DPU视为单一芯片，而是从三个维度重新定义其价值：1）架构决胜，用*进的芯片架构来重新定义DPU芯片架构；2）软件护城，用最高兼容性来重新定义DPU的软件系统；3）平台上门，用*的成本让客户接入DPU规模化部署与业务验证。以上三方面的内容将构成「中科驭数」在算力基础设施领域的“芯云计划”。我们做芯，是为了服务云。手中有芯，心里有云。

结语

自18世纪的“蒸汽时代”到“电气时代”再到现在的“信息时代”，每一次革命都是对人类潜能的一次巨大释放，而我们目前正处于一个由数字技术引领的创新与革命的新历史进程中。

在这场“智能时代”的革命中，人工智能、大数据、云计算、物联网——这些技术正如细胞分裂般加速迭代，正在逐步推动社会进入一个全新阶段，这也意味着我们对算力提出了更高的要求。

相关研究表明，随着算力指数的提升，数字经济和GDP的也会随之增长。因此，我们可以预见的是，在这场算力革命中，DPU以其高技术、高智能、高性能的优势将有望成为推动革命爆发的关键力量之一。

【本文由投资界合作伙伴微信公众号：中科创星授权发布，本平台仅提供信息存储服务。】如有任何疑问，请联系（editor@zero2ipo.com.cn）投资界处理。