中科深智深度协同NVIDIA Omniverse 加速AIGC数字人生态布局

2023-02-28 17:33 · 互联网　　　

由ChatGPT引发的讨论热潮正带动对于AIGC应用的极大关注，数字人被视为一个重要方向。数字人产业近年来快速升温，但目前来看，数字人产业链各环节仍较为分散，产品、市场与商业化能力，仍需技术帮助突破瓶颈，并通过产业链上下游公司的协同加速推进。

协同主要以技术+解决方案公司或运营公司合作进行，打造面向B端或C端的数字人产品。这些合作加速了对数字人应用和商业化的探索，但也容易导致技术发展和产品、市场脱节，仅靠一两家公司难以解决数字人发展链路上存在的多个问题。因而更多产业链上下游公司，已经开始探索更多协作模式。

去年，生成式AI虚拟人和3D AIGC技术公司中科深智和NVIDIA展开深度合作，将自身旗下数字人多模态实时驱动引擎 Motionverse引入NVIDIA 3D 模拟和协作平台Omniverse。

这成为数字人大厂生态协同的一个典型应用案例。此次合作对双方来说，发掘了契合的协同点，帮助推动数字人更加适应智能化、实时性、多模态等趋势。

对中科深智而言，主要针对数字人领域中的数字人驱动、相应的表情和动作自动生成等进行深耕，整体链路过长，并非初创企业可以包揽。以NVIDIA Omniverse作为协作和AI平台，利用其中数字人资产和相关工具链，可以提升形象生成到云端渲染的效率等。而NVIDIA与中科深智这种可通过生成式AI技术驱动数字人的公司合作，也能更好实现深入B端产业生态的诉求。

AI加速数字人产业变革

数字人产业正处于加速变革的重要节点，AI的加入被视为可能会极大加速整体进程。

作为深耕在数字人应用领域的一家公司，中科深智CTO宋健明显感受到产业近年来的变化。

他谈到，数字人行业在这几年的快速发展中，解决了很多关键性的问题。比如快速建模的问题，以前做一个数字人可能需要半年时间，花费一百万，而现在可能只需要一天时间甚至非常便宜，这大大降低了成本。整个应用和技术成熟度提升以后，以前持观望态度的不同行业用户可以很快地去做尝试，并在现有的业务流程用数字人实现其中的一部分。

“很多传统工作流的环节，可以通过数字人进行数字化。目前的趋势可能会比较快地加速这个流程，取决于成本和技术的完善。”宋健。

NVIDIA中国Omniverse业务负责人何展也表示，未来，可以通过简单的逻辑来描述且又是高频次不断重复的工种，可能会面临被数字虚拟人所替代的情况。相比以前人为、手工的技术路径，AI能够解决简单重复的事情，让创建数字人变得更高效。

但从数字人行业本身的发展来说，目前的产品化或者工程化的数字人方案仍处于非常初级的阶段。

之所以说是初级阶段，现在做的效果还有巨大的提升空间。“AI能够复现出性格、情感，和真人一样，这些都做完以后还要进行交互，交互也不单单是目前的对话。因为AI的介入，迭代速度会远远超出我们的想象。”何展表示。

基于这样的现状，行业协作变得至关重要。

宋健表示，中科深智一直把Omniverse当成非常重要的协作和AI平台，目前把现有的一部分能力和平台连起来，比如可以支持不同的驱动方式驱动Omniverse的数字人和相应的一部分资产，利用Omniverse一部分的功能模块和微服务完善数字人的工具链，让行业用户可以非常方便地创建自己从形象到最后的生成和云端渲染，整个链条有很多依赖于Omniverse和NVIDIA提供的工作流工具。

而NVIDIA作为AI基础设施的提供商，在此之上需要大量的行业应用填补各种各样的空间和空白。

成立于2016年的中科深智，由来自于中国科技大学校友组成的创始团队创立，拥有深厚的原创技术和专用数据积累，并基于 Transformer 自研了虚拟人动作和表情生成的大模型CLAP（Contrastive Language-Action Pretraining），已申请80余项核心技术专利池，专注于生成式AI虚拟人和3D AIGC技术领域的应用。

对于四五年前开始布局数字人研发的NVIDIA来说，数字人应用目前处于第二阶段。相比第一阶段重在如何构建完全逼真的数字人，第二阶段引入AI技术，探索如何驱动或者赋能交互技术的应用。

其中Audio2Face的版本迭代尤为引人瞩目。它可以通过一段音频驱动数字人面部表情的动捕，如同常人说话一般，实现口音口型和面部表情、细微动作，而且整个过程耗时不到3分钟。

“Audio2Face的工具已经进行了多个版本的迭代，拥有非常惊艳的效果，比如现在可以达到Audio to Emotion效果，通过音频驱动情绪情感的表达。”何展表示。

NVIDIA目前还在大力融合和整合AI赋能工具。在ChatGPT搅动科技圈的当下，NVIDIA日前宣布将在3月举行的GTC会议上，CEO Jensen Huang黄仁勋和OpenAI联合创始人兼首席科学家IIya Sutskever将就“AI Today and Vision of the Future”话题展开讨论，引发外界想象。

从初创加速计划，到平台接入：“NVIDIA+中科深智”典型案例

作为双方协同的一个典型案例，中科深智去年对外展示了蛋糕店数字人销售系统。参展人对着屏幕里的蛋糕店数字人店员提出需求时，数字人店员几乎没有延迟，如同真人一般与参展人进行交流，展现出AI数字人实时互动的能力。

蛋糕店数字人销售系统结合了中科深智数字人开放平台Motionverse与NVIDIA Maxine、NVIDIA Riva 、NVIDIA NeMO等NVIDIA AI SDK，在NVIDIA的高性能GPU上运行，成就了展位上蛋糕店3D虚拟数字人互动点餐的落地场景。

宋健提到，整个过程涉及到自动语音识别技术（ASR）、自然语言处理（NLP）、语音合成（TTS），以及数字人表情和动作的生成。传统的做法是将这四个独立模块串联，因此会有延时。而NVIDIA能够把ASR、NLP、TTS和表情动作的自动生成放在同一个管道，结合Motionverse引擎，达到几乎无延时的效果。

“目前为止，3D数字人的交互领域还没有看到比这个延时更低的部分。”宋健表示。

这是双方合作深化的一部分。早在合作之初，中科深智就认识到，针对数字人领域中的数字人驱动、相应的动作生成，整体数字链条非常长，需要利用非常多的部分把整个链条连起来。而NVIDIA提供的大量应用，比如当前使用的NVIDIA Maxine和NVIDIA Omniverse，可以弥补很多环节的缺失。

双方的合作可以追溯到2021年。当时，中科深智加入到了NVIDIA初创加速计划。这是NVIDIA提供的加速创业公司发展的全球生态项目，在中国的会员企业已超过1500家，全球超过了1万家。

该计划集结了NVIDIA以及行业合作伙伴的资源，能够为会员公司提供产品折扣，市场宣传，技术支持，融资对接，业务推荐等支持。NVIDIA初创加速计划在中科深智开发Omniverse Extension（扩展程序）的过程提供了持续的技术支持，并且通过活动、案例故事等方式助力市场推广与宣传。

去年9月，中科深智与NVIDIA加深合作，将Motionverse接入NVIDIA Omniverse，同时结合NVIDIA多个SDK提供的强大AI能力（Avatar Cloud Engine 、Maxine等），为全球设计师和开发者提供完整的数字人全套解决方案。

Motionverse是以生成式AI虚拟人技术为核心，打造的虚拟人业务中台。是一款用于多模态动作表情生成的扩展程序。以视频源、音频源、文本源等各种方式输入，可自动生成虚拟人的身体动作数据、面部表情数据，以及口型数据。支持iPhonex以上带有深度摄像头的机器，能够将捕捉到的数据传输到对应客户端，用于实时驱动模型动画做出相应表情和动作。

在本次合作中Motionverse直接对接于Omniverse平台，包括面部、上半身、声音、DM等方式，两者对接能够优化当前市场中技术端特别关注的多模态人机交互领域的内容。

此外，中科深智还在Motionverse中采用了AI软件开发套件和云原生微服务“NVIDIA Maxine”，并推出产品“云小七”，可实现自定义对话的低成本快速对接，提升企业服务水平。

生态协同与业务聚焦，未来能力拓展

在这一合作案例中，双方在生态上的契合明显，初创企业的价值在于核心能力的深耕。例如中科深智对于生成式AI虚拟人技术领域十分擅长。NVIDIA的核心在于解决基础设施的应用和在不同行业的使用问题。

对于NVIDIA而言，希望做成一个协同的平台，用户会有很多不同的上下游的供应商合作伙伴，协同不同身份、不同供应商的用户。

何展表示，NVIDIA始终在底层技术上不断迭代，“希望合作伙伴在应用层第一时间非常快地应用到全球最领先的由NVIDIA提出非常底层的XR、空间计算、云边端可扩展的算力技术、云原生、AIGC等技术。”

当前，NVIDIA想要做的是标准。“我们想要在全球范围内找到合适的、开源的、免费的、中立的标准，能够让大家在3D模型协同设计、轻量化，可以定制和自定义的3D工作流实现这种可能。

当然，NVIDIA对行业生态合作伙伴有自己的选择标准。何展表示，NVIDIA的文化是从技术角度更多看待场景应用、技术研发和迭代，希望合作伙伴也有相类似的公司文化以及开展的业务具备前瞻性。

对于中科深智而言，依托NVIDIA的相应服务和AI模块能力则可以更为专注地深耕自身所处细分行业，构建自身技术壁垒。

从数字人产业链的角度来说，目前很难有厂商可以完成从建模到绑定到美术资产的完善和渲染，再到数字人的驱动、对话系统、语音合成全流程。宋健认为，“除了NVIDIA以外，大厂在这方面有常年投入的情况，涉及到所有环节，但对我们来讲不大可能去做全链条，其实也没有必要。”

“依托大厂生态，中科深智可以专注于核心能力的打造，比如虚拟人动作和表情的实时生成，这个部分恰恰是NVIDIA这样的厂商不需要去做的部分。中科深智自己的技术能力加上NVIDIA提供的基础模块和端到端的计算能力，正好可以结合得比较好。”宋健表示。

接下来，NVIDIA希望通过AI工具赋能面向各种应用场景的数字人。目前NVIDIA还在大力融合和整合AI赋能工具，比如云原生微服务的AI应用—NVIDIA Maxine，希望能够整合研发资源，基于Omniverse架构的基础，打造Omniverse Avatar平台。NVIDIA预计在底层技术上不断迭代，将云边端可扩展的算力技术、云原生、AIGC等慢慢融入到Omniverse平台之中。

中科深智计划升级推出AI快速动画生成系统”自动画”，在3D领域会有基于语义的场景生成，3D物体的生成，基于语义序列动作的生成。中科深智希望通过这种3D AIGC产品，可以让用户在短时间内完成整个视频制作。中科深智将继续在3D内容创作使用AI技术实现3D场景、物体、动作的全面生成，最终的目标是帮助用户快速创建内容。

关于中科深智

中科深智成立于2016年，由来自中科大校友等拥有“技术+商业化”创始团队创立，投资方包括英诺、金沙江创投、MYEG、晨山资本等。目前已拥有数千家合作伙伴，80+发明专利，并与英伟达、Unity、UE Metahuman等达成广泛的技术合作，是全球元宇宙和虚拟人全栈式解决方案服务商。

中科深智以自研虚拟人动作和表情生成大模型CLAP为核心，打造Motionverse虚拟人业务中台。基于Motionverse中台，研发自动播、自动画、云小七、Anyhuman等系列3D AIGC产品，也为集成商及其他合作伙伴提供SDK和API，赋能虚拟人生态链。

（免责声明：本文转载自其它媒体，转载目的在于传递更多信息，并不代表本站赞同其观点和对其真实性负责。请读者仅做参考，并请自行承担全部责任。）