旗下微信矩阵:

终于有人用 AIGC「干正事」了

科技突破往往发生在交叉领域,蛋白质预测突破背后,一个关键便是源自自然语言处理的技术 Transformer,应用在了生物领域。
2022-12-14 09:52 · 微信公众号:极客公园  凌梓郡   
   

AIGC 的能力惊艳了所有人,背后的技术——扩散模型,也启发了生物学家。而当生物学家将这项技术「为己所用」,就带来了技术升级:更准确地设计全新的、从来不存在的蛋白质。结果比目前已经存在的模型都更加优秀。无论是 Open AI 的 DALL-E,还是开源的 Stable Diffusion,能生成以假乱真绘画,背后的关键技术都离不开扩散模型。

2022 年,人们获得了一项前所未有的绘画超级工具。普通人只要用语言给出描述、或者几个关键词,就可以用 AI 程序生成一张媲美专业画师的作品。拥有了这样工具的人,即使没有学过绘画、不会操作任何设计软件,也像是拥有了神笔的马良。而一些专业的视觉设计从业人员,也开始尝试用新的工具辅助工作。这一波 AI 绘画的火热,再一次证明了 AI 图像技术的发展。不是几年前的识别是人还是车、是猫还是狗,而是直接生成。

AI 生成的图像|来源:网络

而技术带来的想象远不止理解语言、生成图像,也能给科学家提供强大的工具。也许你还记得去年夏天的 AI 刷屏,DeepMind 推出的 AlphaFold2 解决了困扰生物学家五十多年的难题——蛋白质预测。随着这一话题的热度攀升,人们逐渐意识到了 AI 的另一种强大力量。曾经需要科学家在实验室里花费数月甚至数年,才能够测得某个蛋白质的结构,如今输入一串氨基酸序列,就可以得到预测的结构。

DeepMind 的创始人兼 CEO Demis Hassabis 说,「我认为,未来十年我们会看到更多这样的事情ーー人工智能真正有助于真正加速一些科学突破ーー我们希望成为更多科学突破的一部分。我们认为这只是个开始。」

科技突破往往发生在交叉领域,蛋白质预测突破背后,一个关键便是源自自然语言处理的技术 Transformer,应用在了生物领域。这样的模式正继续发生:源自AI 绘画领域的扩散模型,正在加速蛋白质设计。

蛋白质设计可以做的事情太多了。这项能力让人类得以生产分子级别的「机器」,它们可以是新的药物、疫苗、新的纳米材料、为特殊反应定制的酶……甚至可以作为污染处理方案,分解环境中的有毒分子。

01、从预测到设计

蛋白质执行着生命的各项功能,也是生命系统中最重要的「分子元件」。比如,当新冠病毒感染人体时,在微观层面,首先是两种蛋白的结合。病毒表面的刺突蛋白(S 蛋白)结合了人体内细胞上的另一种蛋白——ACE2。

新冠病毒电镜扫描 3D 图,粉色的部分为刺突蛋白|来源:Nanographics

决定一个蛋白质拥有怎样功能的,是它的结构。「氨基酸序列——结构——功能」三者间的对应关系,是理解一个蛋白质的密码。最难的是「氨基酸序列——结构」之间的关系,因为一条氨基酸长链条折叠成什么样,有无数种可能性。究竟如何折叠,受到氨基酸之间化学反应、蛋白质所处环境等各种因素的影响。科学家目前掌握了蛋白质折叠的基本原理:蛋白质会折叠到能量*的状态,然后保持结构稳定。AlphaFold2 则用更优的模型+暴力计算,一举超越了之前所有的计算方法。

蛋白质设计,是结构预测的逆向问题。两者像是「序列——结构」这道题的正反求解。已知序列、求解三维结构,是结构预测;设定某个三维结构、求解序列,便是蛋白质设计。

人类想设计蛋白质,归根到底是想让这种强大的生物元件来为自己服务。我们可以先设想一个需要的功能,然后看什么样的结构来实现功能。最初的要求可能是:瞄准某个靶点的药物分子、在细胞膜表面专门运送某种物质的蛋白……科学家最想拥有的「魔法」是,去设计一个自然界原来并不存在的蛋白质。

蛋白质设计领域的领军人物大卫·贝克(David Baker)将这个正在发生的进程称为「蛋白质设计革命」,「这场革命与人类历史上发生过的其它科技革命类似,我们将可以用新的方式来操控世界……通过蛋白质设计革命』,我们将学会用前所未有的方式,来操控生物分子。」他目前是华盛顿大学的计算生物科学家,在 AlphaFold2 模型推出之前,他带领团队推出的预测蛋白质方式是学界的主流模型。

David Baker | 来源:华盛顿大学蛋白质设计研究所

如今,他的实验室也走在蛋白质设计的前沿。12 月初实验室发布了最新的模型 RF diffusion,这个模型将 AI 绘画领域的扩散模型创新地融入蛋白质设计中。

另一个团队也发布了类似的成果,波士顿的蛋白质设计公司 Generate BioBiomedicines,发布了一个蛋白质设计程序 Chroma。这两项最新的研究成果,都可以对性能、结构先做一些设定,再依据这些设定来生成全新的蛋白质。

来自贝克团队的一位成员说,「我们生成的蛋白质与现有的蛋白质完全没有相似性。」Generate Biomedicines 的 CTO 则形容,「我们可以在几分钟内发现花费了数百万年的进化是什么」。除了根据条件来重新设计,两个团队的最新模型还可以生成蛋白质片段,将片段与已经存在的结构匹配。

这次研究中出现了让大卫·贝克非常惊喜的结果——生成了一种附着在甲状腺旁激素上的蛋白质。「它凭空想出了这种蛋白质设计」。这种蛋白质的功能是控制血液中的钙水平。在设计时,科学家只是告诉模型荷尔蒙的信息,然后让它生成一种与之结合的蛋白质。接下来,在实验室测试这种蛋白的时候,他们发现,新设计出的蛋白和激素紧密连接,甚至超出了现有的药物。

David Baker 实验室设计的环状蛋白质|来源:华盛顿大学蛋白质设计研究所

02、设计蛋白质的「魔法」

如果说提出对图画的描述,让 AI 帮你作画已经超出想象;提出一个对蛋白质的要求,让 AI 帮你设计出这样一个分子,更像是一种超级能力。大自然花了上亿年形成蛋白质进化规律,人类虽然不能完全翻译这些规律,却可以发明强大的工具,并对它发出指令:「生产一个可以与 X 结合的分子」。

扩散模型已经在 AI 绘画显示了威力。最基础的直觉原理来源于物理学。在环境中,气体分子会高浓度区域扩散到低浓度区域,这个过程,也类似噪声逐步扩散、最终导致信息丢失。

将这个原理运用在图像生成,便是将「噪声逐步扩散、最终信息丢失」的过程逆向运作。先生成一张充满大量噪声的图片,再基于 AI 能力,一边猜测哪些对于最终的图像而言是「噪点」,将其去除,那么剩下的便是所需的「信息」。通过迭代,在噪声中反复提取出「信息」,最终生成被指定的图片。

为什么扩散模型用于蛋白质设计,会有更强大的结果呢?极客公园咨询了两位计算机生物学领域的学者。他们表示,目前会有一些依据模型特点的推测,但还很难说清楚。不过目前的研究结果,已经证明了扩散模型的潜力。Baker 实验室表示:新方法在许多问题上优于现有的蛋白质设计方法。

比如用来设计皮摩尔级别的结合剂(1 摩尔=10^12 皮摩尔)。Barker 实验室的科学家 Joseph Watson 难掩兴奋地在 Twitter 上分享结果:我们设计了五种医学相关分子的粘合剂。这些结合蛋白通过了最严格的计算机测试,现在正在实验室测试它们。将来,可能只需要几秒钟就可以为任何目标设计出高亲和力的结合蛋白。

五种粘合剂|来源:Joseph Watson

而在 Generate Biomedicines 的最新成果中,具有对称结构的蛋白质分子表现优异。

Baker 曾经说,「有时候我自己也会觉得这像是魔法。我喜欢做这些魔法般的事情。」只不过为了取得这些「魔法」,他们经历的失败、复杂的研究过程,很少为外界所知。

还有许多结果等待验证。设计出的蛋白是不是能够如所设想的具有特定功能?这需要合成出蛋白质,进行实验验证。目前 Baker 实验室正在鉴定一种能与新冠病毒相关的蛋白。这种蛋白具有对称的结构,能够与病毒上三个对称的刺突蛋白结合。

今年 6 月份,一款新冠病毒疫苗在韩国获批上市。这是科学家运用之前的蛋白设计能力研发出的疫苗。这款名为 GPB510 的疫苗,是一个人工设计的蛋白质纳米颗粒,上面布满了新冠病毒的刺突蛋白片段。(下图中的红色部分),这些片段能够激发人体产生抗体。

不断发展的工具,会给人类带来更多不同功能的蛋白质;如今,正来到了不断突破的加速期。

【本文由投资界合作伙伴微信公众号:极客公园授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。