英矽智能在经历了九九八十一难之后总算上市,这家biotech可以说是在AI制药领域最为出名的药企,如今它的上市,大家对它的估值更是做出了非常多的联想,也有很多人对它展开了星辰大海的期待。
笔者作为一名研究创新药的写手,可能对于一家AI相关的企业不太会拍估值,因此只求认真梳理清楚该药企平台情况和管线价值,以此希望给投资者一个基本的研究指南。本篇文章,笔者将以深入浅出的笔法讲解英矽智能的压箱底技术——PHARMA.AI平台。
01
chemistry42平台
英矽智能平台主要就是PHARMA.AI平台,Pharma.AI平台由Biology42,Chemistry42,Medicine42及Science42组成,旨在整合药物发现及开发过程,以识别新药靶点,针对新品种及已知靶点设计替代分子,优化临床开发,并通过多代理生成式人工智能协助加强研究。此外,该平台由强大的data warehouse(数据仓库)支持,可自动执行数据获取和处理,确保跨应用程序的无缝集成和可扩展性。
一个一个来拆,chemistry42是一个生成小分子的平台。它将最 先进的生成式人工智能算法与药物化学和计算化学领域的专业知识以及最 佳工程实践相结合。该平台于2020年推出,已被20多家制药公司、15个外部项目和30多个内部项目采用。该平台的主要目标是加速设计具有用户自定义特性的新型分子,其一般工作流程如图所示并进行了描述。
大概的总做流程如下图所示,第 一步,用户在公司专属的安全软件中上传数据,并配置平台以设置生成结构的所需属性。第二步,运行平台,其中40多个生成模型一起运行以生成新的结构——此步骤称为生成阶段。在生成阶段,各种过滤器会对生成的分子结构进行筛选。然后,这些分子结构会经过多组奖励和评分模块(分为2D模块和3D模块)的评估,这些模块会根据预定义的标准动态评估生成结构的属性。此外,还可以将自定义评分模块(例如 ADME预测器)集成到奖励流程中,以对生成的结构进行优先级排序。这些模块构成了 Chemistry42基于多智能体强化学习 (RL) 的生成协议的核心。生成的结构得分会被反馈给生成模型,以增强模型性能并引导生成过程朝着高分结构发展——这被称为学习阶段。最后一步是分析。生成的结构会根据其预测属性(包括合成可及性、新颖性、多样性等)以及可自定义的指标进行自动排序。该平台还为用户提供交互式工具来监控生成模型的性能。
chemistry42可以基于两种模式生成分子:LBDD(基于配体的模式)以及SBDD(基于结构的模式),基于配体的药物设计(LBDD)方法需要输入二维或三维配体结构,格式可以是.sdf文件、SMILES字符串,或者用户也可以使用便捷的绘图面板直接在平台上绘制分子草图。此外,用户还可以根据需要添加药效团假设,并可使用小部件手动创建,或由平台自动生成。在基于结构的药物设计(SBDD)方法中,必须将蛋白质靶点的结构(无论是无配体形式还是与配体结合的形式)以.pdb文件的形式上传到平台。用户可以选择配体周围的口袋(配体结合位点),也可以从口袋扫描模块提供的备选口袋集中选择一个。与LBDD的情况类似,也可以根据需要添加药效团假说。
Chemistry42中用于基于强化学习的生成的奖励和评分模块是二维或三维的。上图中的二维模块由多个评分和内部开发的药物化学过滤器(MCF)组成,用于评估生成的结构。在当前版本的Chemistry42中,MCF包含一套超过460条基于结构的内部规则,用于排除“不良”结构。在利用二维模块评估生成的结构之后,将部署多个三维模块进行进一步评估。这里我们对三维模块的评估不再赘述,大概就是使得能量最小化,以及柔性评估等等。
这里举一个例子,GENTRL 模型和后生成协议是Chemistry42平台当前架构的雏形。2018 年开发的模型生成了经实验验证的高效DDR1激酶抑制剂。GENTRL模型首先基于ZINC 数据集进行训练,然后利用已报道的DDR1抑制剂和一个公开的激酶抑制剂数据集进行微调。随后,对获得的结构进行结构过滤,以去除含有反应性基团等其他警示信号的结构。
经过一系列筛选后,剩余的结构随机选择40个进行人工合成可行性评估。在这40个结构中,有6个被选中进行合成和生物学评估。到第35天,这些化合物已成功合成,并在体外进行了DDR1酶促激酶抑制活性测试。超过一半的化合物被发现具有活性(IC 50 < 1μM),其中包括两种两位数纳摩尔级别的抑制剂(10 nM和21 nM)。基于此,该DDR1激酶抑制剂最后进入湿实验筛选阶段。用Chemistry42的雏形模型,大大提高了前期化合物的筛选效率。
02
Biology42平台
然后是Biology42平台,该平台也由多个应用程序组成,Pandaomics,Generative Biologics、Life Star 2,Precious1GPT、Precious2 GPT和Precious3 GPT。如果说chemistry42主要是对小分子进行生成和筛选的话,那么Biology42就主要是对大分子蛋白质进行评估以及预测其相互作用。
这里我们主要介绍Pandaomics,PandaOmics提供了一个全面的数据处理流程,有助于识别潜在的治疗靶点和生物标志物。其数据处理的流程如下图所示:1.进行数据集选择 2.和样本组比较3.提供基因和通路水平的分析4.对分子特征与临床数据之间的相关性进行探索。该平台将这些步骤的结果整合到荟萃分析中5.利用包括从文本数据中提取的先验知识在内的多种数据源来增强靶点预测6.识别治疗靶点和生物标志物 7.疾病相关活性化合物鉴定。8.适应症优先级排序9生物知识图谱分析10.基于大型语言模型的ChatPandaGPT来解释基因-疾病关联。11.用于靶点验证和化合物筛选的机器人实验室与平台的AI核心形成反馈回路12.利用 PandaOmics确定的目标假设输入Chemistry42软件,进行小分子生成。
在最近的2023年案例研究中,PandaOmics发现了CAMMK2、MARCKS和p62,它们在阿尔茨海默病细胞模型中得到了成功验证;KDM1A被证实是一种双重衰老/肿瘤靶点,可以延长秀丽隐杆线虫的寿命。这些案例研究也突显了PandaOmics和iPANDA能够研究的疾病和生物学机制的多样性。该平台已被应用于研究DNA修复障碍、肾脏上皮细胞命运特化以及人类肌肉衰老等多种疾病。
除此之外,biology42平台还有值得关注的程序是Generative Biologics。该平台于2024年7月被推出,它能设计并优化多类生物药物一包括多肽,纳米抗体及全长抗体一精确地针对特定点进行高亲和力结合,利用我们的生成式人工智能模型及励函数,平台能设计全新生物药物,不仅显示优异的结合亲和力,但亦满足关键的可开发性标准,如稳定性,溶解性与可制造性。Generative Biologics能仅以三个步骤生成新的生物药物分子。其模组化架构支持反复优化,使用户通过由人工智能预测指导的反锁过路以优化生物候选药物.这精简设计流程,并显著降低传统生物药物开发相关的时间和成本。
英矽智能于2022年12月在中国苏州推出建筑面积为1,665平方米的原有Life star自动化实验室。于2025年,我们将实验室搬迁至上海并升级至下一代自动化实验室Life Star 2。该自动化实验室配备了包括新一代测序仪,细胞培养器,细胞分析仪,自动化液体处理机,回声液体处理器,成像系统,高内涵分析平台及自动导向车(AGV)的全面仪器。其旨在进一步提高我们内部的实验室实验的效率及能力,并促进数据生成以改善我们的Pharma.AI平台。
与早期的自动化实验室相比,Life Star 2亦致力于决策流程中减少人为干预。生成式人工智能赋能Life Star 2能自动化点选择,设计实验及执行实验以收集实验数据,以产生及测试疾病假设,并进一步验证及训练人工智能模型。自动化实验室消除了人工靶点选择的偏见,并为发现新药和治疗挖掘了力。英矽智能将继续努力优化Life Star 2的设计,以扩大其能力范围,缩小其占地面积并优化其建设及营运成本。
除此之外,Life Star2的模块化能逐步引入新的药物发现方法等新功能。此举将增强英矽智能的内部开发能力,同时促进其接受及采用.同时,实验室的模块化设计方案使我们能代优化并提升其成本效益,并为全球研究机构提供具吸引力的一揽子解决方案.此外,由于每个生命之星都将在现场配备完整的硬件及软件解决方案,所有受试者数据的处理均可在现场完成,从而降低数据隐私风险。
03
medicine42平台
如果现在还觉得英矽智能只能做前期的小分子药物设计及蛋白质靶点预测,那就大错特错了,事实上,它的medicine42平台可以预测临床试验结果。该平台由inClinico应用程序组成,inClinico为一种多引擎,生成式人工智能临床试验分析应用程序,其旨在预测临床试验的成功。
inClinico主要专注于在广泛的治疗适应症中成功进行I期临床试验的可能性,因为英矽智能认为I期临床通常是与受试者首 个概念验证数据相关的主要拐点的关键阶段。此外,通过仔细审查临床试验设计的详细资料,inClinico亦有助于识别临床试验设计中的潜在弱项,使临床试验申办者能作出相应调整,从而可能增加其试验成功的概率.通过整合及分析各种数据来源,inClinico计算与试验成功有关的不同部分的评分,包括靶点选择,药物结构,试验设计及受试者资格。该等评分将会综合评估并纳入预测临床试验成功推进至开发流程下一阶段的概率中,具体而言,靶点选择评分乃根据与PandaOmics的共享元素进行评估,该等元素估计靶点与相关疾病的关联以及在相关点的情况下疾病的异质性。此外,药物结构评分是根据与生成化学的共享元素得出的,这些元素评估分子描述符的贡献以及ADME(Adme)及毒性特征。
为了进行内部验证,英矽智能使用2021年之前临床试验结果的公开数据对inClinico进行训练,然后使用2021年1月至2021年9月期间读取的不同治疗领域的临床试验结果对平台进行前瞻性验证。在该研究中,inClinico基于接收器操作特征(ROC)曲线下的面积(AUC)实现0.86的预测值,该曲线是诊断能力的一种指标,该数字越接近1,表明进入预测进入临床II期的评估越准确。于2019年,一家全球制药公司委聘英矽智能应用inClinico来预测该制药公司选定的正在进行的六项II期临床试验中的七项结果,英矽智能部署了inClinico来估计成功的概率,并对该七项结果进行特征分析。截至最后实际可行日期,全部七项临床试验结果均已公布,而inClinico正确预测七项结果中的五项。
结语:这就是英矽智能目前平台的实力,它现在已经真正建成了在创新药全链条覆盖的人工智能体系,从对蛋白质结构及相互作用,靶点进行分析的biology42,到能够生成大量小分子并对化学分子进行不断筛选的chemistry42,到能够预测临床结果的medicine42。这些平台构成了目前英矽智能讲故事的基石。
也正因为此,我们需要把英矽智能的估值分为两个部分,一个部分是与其它药企(例如石药)的外包服务收入,这方面类似于CXO,另一部分是自身的管线估值,这方面直接按biotech进行估值就好。
【本文由投资界合作伙伴微信公众号:瞪羚社授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。
旗下微信矩阵:














