ChatGPT 是美国专注于通用人工智能研究的公司 OpenAI 在2022年11月发布的人工智能聊天机器人。发布两个月后,月活用户已经突破了1亿,成为史上用户增长速度最 快的消费级应用。AIGC是利用AI自动生成内容,在AIGC场景下,人工智能可被灵活运用于写作、编曲、绘画和视频制作等创意领域。ChatGPT属于AIGC技术在自然语言对话场景的应用。
ChatGPT在智能化方面有着跨越式进步,在多轮对话能力、对话交互友好性、结果的逻辑性上展现了惊人的效果。其能够较准确理解提问,生成连贯的、合乎语法、且看起来逻辑通顺的文本段落,并且能够衔接上下文与用户进行多轮对话互动。同时,在安全伦理方面也有相当好的表现,生成的结果道德友善且符合大众的道德和价值观。
然而业界亦不乏针对ChatGPT计算成本、商业前景的悲观讨论。在此背景下,本期的【对话首 席】从技术评价、商业化场景、商业潜力,及未来发展前景四个角度,与特斯联首 席科学家、特斯联国际总裁邵岭博士聊了聊相关话题。
邵岭博士是国际知名人工智能科学家,他不仅是IEEE Fellow,同时也是国际模式识别协会Fellow、英国计算机学会 Fellow及IET Fellow 。在加入特斯联以前,邵岭博士曾任沙特阿拉伯数据和人工智能管理局(SDAIA) 国家人工智能中心 (NCAI)首 席技术官和首 席科学家; 2018年至2021年,他担任阿联酋起源人工智能研究院(IIAI)创始CEO及首 席科学家。邵岭博士还是全球首所人工智能大学 - 穆罕默德·本·扎耶德人工智能大学的发起人和创校执行校长。
邵岭博士指出尽管今天的ChatGPT能够适用几十种不同语言,但不同语言在效果上仍存差别——英文效果最 好,中文、阿拉伯文,及其他语言效果相对较差。同时,邵岭博士表示,ChatGPT在商业化过程中同样面临着研发成本高昂、商业模式存在不确定性、自身的局限性,及法律、道德风险的挑战。
特斯联科技集团首 席科学家、特斯联国际总裁邵岭博士
技术评价
Q1.ChatGPT出圈,AIGC被视为AI领域的颠覆性技术代表,它到底实现了哪些惊人的技术突破?
邵:ChatGPT本质上是一个大语言模型(LLM,Large Language Model),是利用大规模的文本数据训练出来的,能够生成文本的自然语言模型。在自然语言处理(NLP)领域,ChatGPT并非是第 一个基于大型语言模型的产物,在其之前有诸多著名的语言大模型,如BERT、GPT-1、GPT-2、GPT-3、XLNET、T5等,这些模型在自然语言任务中效果也非常出色,但最 近ChatGPT成功出圈。
ChatGPT的成功在于其创新训练方式和千亿级的模型参数规模。GPT-3之前的大型语言模型,通常是通过在非常大的数据集上使用自监督学习的方式进行训练。ChatGPT突破的背后是使用了Instruct tuning技术和基于用户反馈的强化学习的训练技术,这种技术的训练效率更高,并且使用用户反馈来进一步提高生成结果的准确性。ChatGPT的强大还在于其使用的超大规模模型,ChatGPT基于GPT-3.5,其规模超过其他语言模型达到千亿级别,这种更大的参数规模允许ChatGPT能够挖掘到更复杂的语言模式和关系,从而提高复杂自然语言处理任务的准确性。
但是,从底层模型框架来讲ChatGPT所使用的技术并不新颖,所使用的关键技术在此之前就已经被研究和使用。如Meta首 席人工智能科学家Yann LeCun所说,“ChatGPT在基础科学方面并非是一种创新且独特的技术突破”,ChatGPT并不是一种技术创新,而是一种工程应用创新,它的成功更多体现在针对对话生成场景的杰出表现上。
Q2.在AIGC领域,除了ChatGPT这种语言对话外,还有哪些比较成功的应用?
邵:在AIGC领域中,除了像ChatGPT这种“文生文”的应用外,目前同样引人注目的是多模态“文生图”技术应用。简单来说,“文生图”就是输入一段文字描述,AI可以自动为你生成与文字描述紧密相关的图画。该方向在2018年之前就有很多研究,到了2022年的扩散模型的图像生成出现,实现了一种跨越式的发展。过去的一年里,随着 DALL-E 2,Stable Diffusion 等图像生成模型的发布,“文生图”模型生成的图像在分辨率、质量、文本忠实度等方面都得到了飞跃性提升,极大促进了下游应用场景的开发,人人都成了 AI 画家。
“多模态预训练大模型”是这种应用成功背后的技术支撑。相对于ChatGPT只关注单纯语言文本,“文生图”同时需要文本和图像多模态数据以建立文本与图像之间的内在对齐关系。这种多模态组合建模的方法可以帮助模型更全面地理解人类语言和行为,提高其理解和决策能力。通过多模态融合,模型可以从多个角度对输入数据进行分析,并生成更全面和准确的预测结果。相信在不久的将来,多模态预训练大模型的良好表现会使得推理、总结、策略优化与反向调度等智能场景的应用变得更加高效。
Q3.特斯联在AIGC、预训练大模型等方面有何布局和发展?
邵:目前IoT与人工智能正在紧密结合,而预训练大模型在AIoT领域应用得比较少。特斯联基于多年的行业经验,深刻洞察到这一痛点,并在2022年投入大量成本,由我们的人工智能实验室来研发“基于AIoT场景的多模态预训练大模型”。目前实验室已基于面向IoT行业的大规模数据集,研发了面向AIoT场景的多模态大模型以及相关的训练技术,其中包括语言、视觉、IoT及跨模态大模型,可以功能上实现文本生成、图像生成,语音合成、IoT序列数据分析与预测等。接下来我们将会相继推出AIoT行业预训练大模型,以特斯联的城市智能化发展为目标,将相关技术应用于国内AI CITY、AI PARK等场景,并逐步拓展到中东地区的智慧能源、智能城市等行业应用中。
Q4.ChatGPT作为一种支持多语种的大语言模型,目前存在哪方面的不足?
邵:从目前使用情况及官方信息来看,ChatGPT能够适用几十种不同的语言,但对不同语言在效果上是有所差别的。实际测试的结果表明其对英文效果最 好,对其他语言,如中文、阿拉伯文,效果要差一些。
导致这种现象的可能原因,一是语料数据的问题,ChatGPT 的训练数据绝大部分是英文,其他如中文、阿拉伯文的数据相对占比较少,且英文数据质量也更高;二是语言结构和语法规则的差异,英文的语法与中文、阿拉伯文有着明显差异,从主要为英文的语料学习到的语法结构不一定能很好地适配其他语言。对于这种问题解决方案,一种方法是增加其他语料的数据并提高语料质量。但在当前的互联网条件下,不同语言的数据无法做到相似量级。另一种方法是向模型加入语言知识,这种方法不仅可以减轻语料数据不足的问题,还可以解决语言结构和规则差异性问题。特斯联在训练中、英、阿拉伯文多语言大模型时,增加了阿拉伯语言知识结构信息,可以显著提高对阿拉伯文的性能,能更好适用中东市场需求。
商业化场景
Q5.ChatGPT已经开始在商业领域进行应用,比如智能客服、自然语言生成、推荐系统等,您认为ChatGPT有哪些商业潜力?
邵:根据《Generative AI:A Creative New World》的分析,AIGC有潜力产生数万亿美元的经济价值。初步估计,到2025年人工智能生成数据占比将达到10%。随着ChatGPT带来的突破,不少企业纷纷宣布在机器人、智能语音/视觉、AIGC智能写作等领域加快研发,新一轮基于内容生产的人工智能应用,有望不断落地,拓展泛AI技术在现实生活中的应用范围。
ChatGPT在搜索、读写、智能客服、教育培训、咨询服务等领域可以被广泛应用,并带来显著性变革。如在搜索引擎领域,通过技术融合优化现有搜索模式,提供更准确信息。目前微软、谷歌、百度等搜索引擎头部企业相继计划推出相关产品。微软已经推出了内测版的ChatGPT版Bing,实时搜索功能弥补了ChatGPT在原有数据库中的语料缺失,同时展示信息来源,并附上图标和视频,相比于文字版的ChatGPT的交互,也更为生动。在教育、医疗、广告营销、电子商务等专业服务领域,ChatGPT能够提供内容服务,甚至替代部分初级的专业工作;与智能网联汽车、智能音箱、智能电视等新智能载体结合,满足受众的内容需求。
商业潜力
Q6.对于ChatGPT和类似产品的商业化,您认为目前存在哪些挑战?
邵:ChatGPT迅速渗透到各种服务场景,成为多个行业和领域中的重要工具,诞生了各种颠覆性的应用。但与此同时,目前技术尚处于早期阶段,仍有许多问题需要解决。
首先是研发及使用成本极其昂贵。数据显示,OpenAI训练GPT-3使用了40多TB的数据、近1万亿个单词,大约相当于1351万本牛津词典。在GPT-3.5基础上训练出的ChatGPT总费用超千万美元。运行成本同样可观,ChatGPT在线服务需要消耗大量的算力,平均一次对话就需要几十美分的运营成本。
其次是如何形成新的商业模式,目前仍有较大的不确定性。在美国,目前绝大多数用户为“写论文或作业”的学生或文字工作者,而其他用户更多为尝鲜使用。ChatGPT现在能扮演的角色还是在一些“锦上添花”的领域,在需要决策性的领域还是远远不够。
此外,ChatGPT本身还有很大的局限性,目前提供的结果是不可信任的,它当前出色的效果给人产生了误导。OpenAI的首 席执行官Sam Altman此前也曾表示,“现在依赖它来做任何事情都是错误的,我们在稳健性和准确性上还有很多工作要做,”我们在使用ChatGPT时,有时会觉得它在一本正经地“胡说八道”。在很多场景,这种错误带来的损失是无法估量的。
最后是法律和道德问题。人工智能技术在虚假信息、学术剽窃、泄露隐私、舆论导向等方面的社会性风险,会因为使用的庞大数据规模被进一步放大。OpenAI虽然对ChatGPT的回答做了很多道德伦理方面的约束,但仍旧无法避免恶意的诱导性提问,可能导致一些偏离道德伦理的答案。
Q7.在这场AIGC浪潮中,哪些企业会成为备受推崇的翘楚?
邵:目前“超大规模预训练模型”是实现AIGC的常规路径,ChatGPT是其中的一种语言大模型。算法、算力和数据是人工智能发展的三个要素,也是推动人工智能发展的重要基础。算法层面,超大规模预训练模型推动AI效果不断提升。当前,预训练模型参数数量和训练数据每年都快速增长,继续通过增大模型和增加训练数据仍是短期内提升效果的主要发展方向。模型技术的研发需要专业的技术人员和工程师的支持。算力层面,训练一次超大规模模型需要花费上千张英伟达A100 GPU计算数周的时间,训练一次的费用高达数百至上千万美元。数据层面,以深度学习为代表的人工智能技术需要大量的数据,如ChatGPT的训练使用了40多T的文本数据,后续还需要人工交互标注,如此多的数据量需要耗费大量的人力和资金。
因此,想要在预训练大模型方向上有所发展,需要专业人才以及大量的资金支持。学术界因为算力和数据规模限制,很难大规模地开展。产业界因为巨大的投入影响运营成本,一般的公司难以大规模投入资金。这是一种靠大量的算力、数据来堆砌的技术,有决心、有能力做这个方向研发的公司在全世界还是少数。预训练大模型是需要有提前规划、持续投入和明确目标来支持的,不是靠临时起意就能快速上马落地的。只有那些有准备,有战略的公司才能最终取得成功。
特斯联集团很早就意识到“预训练大模型”在AI行业中的发展趋势,2022年初开始布局推动该技术方向研发,目前已经在模型技术和数据方向有了一定积累,即将推出面向AIoT行业的多模态预训练大模型。
面向未来
Q8.OpenAI公司创始人阿尔特曼说过“通用人工智能是人类生存必不可少的。我们面临的问题极其严峻,如果没有更好的工具将无法解决。”通用人工智能能为人类生存带来哪些方向的助力?
邵:通用人工智能(AGI, Artificial General Intelligence)是指具备一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能,通常又被称为强人工智能。通用人工智能不同于一般的常规算法,它能够自我提问、自我寻找答案,根据设定的目标制定最终的解决方案,并模拟各种假设的可能实现方式,最后做出最 有利的决策。
通用人工智能给人类带来潜在价值是无法估量的,可以解决世界上无数的问题。例如:在健康医疗领域,人们希望获得治疗某种疾病的方案。向AGI设定目标后,AGI自己连接到互联网,搜索所有与这种疾病相关的当前研究资料。AGI根据资料信息制定解决方案,然后模拟所有可能的潜在结果。它能够把人类的意识和网络上的无限知识结合起来,其拥有强大的学习能力能有意识地分析大数据,并模拟不同的条件和结果,最终输出一套综合了当前所有人类知识的最 先进的治疗方案。AGI的这种能力同样可用于教育、科研、工业等领域,为人类提供无限的价值。不得不说,目前的ChatGPT离真正意义上的通用人工智能还非常遥远。