好的数据应该是怎样的？AI药物发现数据的5V原则

如果你相信机器学习在药物发现和开发方面具有巨大潜力，那就很难绕*的难题——数据。

关于AI药物研发，很多人都意识到数据的重要性，但更多的细节却很难谈起。

本篇文章，LabGenius的首席技术官Leo Wossnig尝试用5V框架定义什么是好的数据，可以生成此类数据的技术堆栈，以及需要哪些思维方式、团队和文化来实现。希望能够对读者有一些启发。

“好”数据是什么样的？

“好的”数据有两个关键要求：数据的相关性，或者数据转化为临床结果的程度，以及数据的质量。

后者是一个宽泛的术语，但实际上问题在于细节——数据收集、存储、协议、再现性和标准化等不太理想的工作。

但如果这项工作做得不好，那么机器学习模型不会工作得特别好，最坏的情况可能会完全丧失数据完整性，从而导致致命的结果。

探索性数据分析以建立对数据的基本理解和严格的模型验证对于机器学习、生物统计学和生物信息学建模至关重要。这些因素会影响模型的预测准确性。

虽然不正确的统计分析也会影响计算机方法的准确性或可靠性，但不准确的化学和生物数据仍然是数据驱动的药物发现方法的核心问题。因此，减少数据生成过程中的噪声并提高一致性是生成高质量数据的关键方面。

然而，随着化学、基因组和蛋白质数据集的增长，原始研究中的一些步骤（例如手动数据管理）已变得不切实际。由于数据准备和建模没有在整个行业中标准化，因此出现了进一步的挑战。

底层流程和工作流程的标准化程度较低，从而施加了更基本的限制。构建数据处理方法以对收集的数据进行一致的管理和标准化是生成高质量数据的另一个重要部分。

但要了解如何收集高质量数据，就得明白什么是高质量的数据，并且定义它。作者开发一个框架来评估数据本身的质量，并引入 5 个关键属性来评估。

药物发现数据的5V原则

在处理用于训练药物发现中的机器学习模型的数据时，需要考虑5个属性。

药物发现数据的 5V定义如下：

1、正确的数据准确性：生成或可用数据的质量、完整性、准确性和一致性

2、正确的数据种类：数据的平衡程度如何？它涵盖什么动态范围？我们有哪些不同类型的数据可用？例如，对于蛋白质来说，这可能意味着训练数据中的高序列或结构多样性。

3、正确的数据量：可用于训练模型的数据量

4、正确的数据速度：用于分析目的的数据生成、积累和管理的速度有多快、成本有多低？这会影响我们验证或重新训练模型的容易程度

5、正确的数据价值：数据如何转化为临床结果（通常与生物复杂性相关）？

一般来说，数据准确性、多样性和数量是数据本身的品质，而速度有助于评估获取新数据的难易程度因此我们要使用什么流程和方法。

如果公共领域的数据很少，或者如果想使用基于主动学习的方法，那么后者尤其重要。数据的准确性基于生物复杂性及其与临床结果的相关性，这会影响数据读出的预测有效性。

数据真实性

使用生物学相关功能测定生成的一致、准确、高质量、标记的数据在药物发现的许多领域很少见，或者根本不存在。大型企业数据集通常没有用处，因为它们没有以一致的方式收集或数字化。同样，来自 CRO 的数据可能不包括机器学习所需的 (ML) 相关控制和元数据。

如果公共数据已经存在，它通常包含大量噪音、重复和错误，这需要仔细分析、过滤、标准化和其他预处理步骤才能使用。

图：来自不同活动标准化前（左）和标准化后（右）的基于细胞的测定中评估的两种不同对照分子的重复测量数据。标准化可以显着改变图像。

同样重要的是，与传统药物发现数据相比，机器学习级数据要求不同且更加严格。即使测量相同的化合物，不同实验室的读数也具有很大的可变性。这又是因为在不同条件下进行实验时会产生截然不同的结果。

图：与化学数据相比，生物数据面临的挑战

另外，公共数据还包含大量错误，但大多数机器学习或化学/生物信息学论文（基本假设是输入数据的正确性。然而，数据库中的错误率可能很高。研究表明，平均每个药物化学出版物有两个错误，导致某些数据库中的总体错误率高达 8%，数据错误会显著降低任何模型的预测能力，并且在用于模型构建时需要特别小心。

图：在 ChEMBL 数据库中，研究了大规模独立细胞毒性测量的可比性在独立实验室测量的重叠复合细胞系系统中，可以观察到相关性较差。这部分是由于注释错误，指出了提取或积累公共数据时数据管理的重要性。

为了确保这种情况，应该花费大量的精力和资源来相应地建立实验室流程和数据处理管道，这反过来又能够创建真实的数据。

数据多样性

一般来说，这个方面指的是正数据和负数据的可用性，以及整个数据集跨越的范围。文献中用于描述大型且多样化的集合的通用术语是“代表性”。

“代表性”数据通常不存在，因为通常科学家选择不将所有化合物进行实验测试或丢弃失败的数据。无论是通过模拟、机器学习还是人类评估来确定优先级，通常的做法仍然是只发展具有*预测性能的分子，这意味着可能不会以最适合学习的方式选择数据。

所有这些限制都会极大地限制模型的学习能力。缺乏反例将限制预测表现不佳的化合物的能力，而缺乏动态范围将导致难以外推到感兴趣的区域并限制模型的适用范围。

数据多样性也可能导致更高的实验成本。例如，围绕特定支架合成分子通常比探索各种随机结构更容易。但序列/结构、物理化学和功能角度的多样性都可以推动模型做出更好的整体预测的能力。

除了某一指标的多样性之外，数据的“多样性”在各种分析中也很重要。例如，测量同一蛋白质的活化、选择性、热稳定性、聚集和产量对于推动项目向前发展至关重要。

为了对药物发现产生有意义的影响，我们需要了解多维优化空间，并在我们执行的分析和捕获的数据中拥有足够多的多样性。

数据量

当然，数量仍然很重要。如果质量合适，数据越多越好。训练机器学习模型所需的数据量可能差异很大。

例如，AlphaFold之所以成功，部分原因是它训练了 1971 年以来在 PDB 中收集的约 100,000 个蛋白质结构的训练，并且数据清楚地涵盖了所有折叠（见 PDB 中的下图）。机器学习能够解决这个问题也就不足为奇了，因为问题空间已被全面覆盖。

图：2018 年 8 月 1 日添加到 PDB 的独特折叠数量，使用 CATH 计算。显示了每年独特褶皱的总数（红色）以及每年添加的新褶皱（蓝色）。资料来源：PDB

相比之下，预测较小范围的抗体序列的结构则更具挑战性。对于小型数据集，覆盖问题空间比较困难，传统的机器学习模型或包含大量先验信息的专用模型通常更好。对于更大的数据集，基于神经网络/深度学习的方法越来越好用。

图：PDB 中所有蛋白质（蓝色）、抗体（红色）和黄色单域抗体（“VHH”）的晶体结构数量。资料来源：PDB

数据速度

获取高质量数据的速度和成本对于生成大型数据集、使用主动学习和微调我们的模型至关重要。更容易测量的生物学数据通常获取也更快，但数据价值也降低了。

在两者之间找到正确的权衡通常取决于生物技术公司可以使用哪些方法以及他们如何有效地推进其项目。与临床终点高度相关的更高速度方法的创新可以在人工智能和机器学习时代带来根本优势。例如，主动学习需要快速的循环时间和足够高的吞吐量来完成设计-构建-测试-学习循环并快速迭代化合物。

数据价值

虽然我们可以控制数据的准确性、数量和多样性，但很难获得体内的复杂数据。过去，通过简单的测定流程能够获得大量的数据，例如高通量亲和力筛选，但这些数据很少能够全面直观地反映药物在体内的表现。

因此，对优质数据的追求不仅包括更多、更好质量的数据，还包括对体内行为具有本质上更高预测性的新颖信息和数据。这也主要包括几个方面。

情境化：有利于在尽可能最自然的环境中进行测量的方法，或者更合理的是，在更类似于体内环境的环境中进行测量的方法。例如，肿瘤微环境 (TME) 中的条件很难在 2D 甚至 3D 细胞培养物中重现。

功能性：直接评估活动而不是依赖退而求其次的方法。例如，抗体活动通常追求高亲和力结合物，但文献中的许多其他例子可以明显看出，较低的亲和力对于所需的功能（如激活或选择性）来说通常是足够的，甚至是必需的。

在这些情况下，更重要的是找到不仅是强结合剂而且具有选择性或具有其他治疗价值特性的化合物。亲和力驱动的选择性试图实现这一目标（参见此处HER2 的背景）。

多尺度：整合不同数据模式来推断因果关系的方法，像TCGA这样的大规模计划提供了跨越临床、基因组、表达和成像模式的多样化数据收集的*示例。

转化：认识到其固有局限性并努力将转化相关性作为设计目标的方法，无论是体内药物活性还是扩大的工业过程。复杂的体外模型正在逐步展示预测能力。也就是说，还有很长的路要走，并且仍然存在许多悬而未决的问题。

5V框架总结

数据资源通常需要专家进行广泛的管理和预处理，提取有价值的数据，并减少错误和噪音。

更应该考虑的是：生成有意义的数据，即与目标结果更相关的数据。

了解5V框架意味着人们可以积极地在成本和生成速度/数据可用性、数据质量和可翻译性之间取得平衡。还可以利用这个框架来评估我们的数据生成管道可以在哪里改进，以*限度地提高数据的质量和效用。

如何获得良好的数据？

在对所需数据的属性有了解的基础上，重点开始关注如何处理数据，主要分为两个方面。

1. 机器学习驱动的药物发现的完整技术栈

所谓技术栈，是指某项工作或某个职位需要掌握的一系列技能组合的统称。

一般来说，我们需要区分用于训练程序内机器学习模型的数据（即仅用于特定程序的模型）和用于训练程序间机器学习模型的数据（即使用的模型跨多个程序）。

对于程序间模型，数据的条件性通常会导致进一步的复杂性，因为程序和流程之间的差异使得数据标准化变得更加困难。例子包括不同的适应症或疾病特异性细胞系，或不同的测定条件。

程序内模型数据标准化的步骤和要求大大简化，但在实践中仍需要大量工作。对于更复杂的生物学尤其如此。

下面的金字塔捕获了构成药物发现中机器学习过程的完整栈。每一层都是必需的，任何一层中的错误或噪声都会降低机器学习数据分析的最终性能。

图：整个数据栈。较低层通常对药物发现计划的实际结果影响*。如果没有良好的基础（即预测分析、数据生成、数据捕获和数据预处理步骤），*的分析也只能实现这么多。数据分析和机器学习可以进一步细分为数据表示和机器学习模型。

在设计数据分析或机器学习管道时，了解每一层并仔细评估噪声、错误和不一致的来源非常重要。在评估技术栈生成的数据时，重要的是要认识到在每一层所做的任何更改都需要技术和科学团队之间的密切合作。确定哪些层对数据质量影响*对于维护堆栈的完整性至关重要，因此应持续进行评估。

下面列出了技术堆栈中的基本层，最终构成了一个完整的技术栈：

数据上下文和相关性：生成的数据的可用模型和上下文对于将生成的结果转化为有意义的（临床）结果非常重要。我们可以优化模型并捕获额外的数据和元数据，以尝试获取更多上下文。

数据生成：通过使用标准化流程、自动化和标准化（设备等）可以生成一致的数据。业务规则、标准操作程序和自动化是关键。

数据捕获和存储：应自动捕获原始数据以及相关元数据，并根据公平数据标准以一致、安全的方式存储。理想情况下，公司中的任何人都可以立即访问它。数据和模型的版本控制和来源有助于确保正确的模型在正确的数据集上进行训练，并提高对错误和更改的恢复能力。

数据处理：原始数据的处理需要在整个公司进行标准化，并在适当的情况下进行标准化（例如拟合曲线的 EC50 值）。自动化和业务规则可以减少此阶段的可变性。

数据分析和机器学习：只有当所有其他层就位后，才可以执行数据分析和机器学习。这需要仔细的数据管理和模型验证。特别是特征选择、数据分割和相关性能指标的选择在这里发挥着重要作用。

向数据驱动的生物技术公司转型需要在人员、流程和系统方面进行战略变革。以下是在技术方面的方法。

创建良好的药物发现技术栈：

流程标准化：建立一致的流程，记录在 SOP 和业务规则中，供整个组织使用。通过使用自动化和调度来*限度地减少手动步骤。

自动数据捕获：开发管道和脚本来自动可靠地捕获、跟踪和版本数据和元数据。选择可以与现有系统集成的仪器也很重要，现有系统通常需要合适的驱动程序。

云和仓库采用：利用 Google Cloud、AWS、Azure 等服务以及 Snowflake 和 BigQuery 等数据仓库来安全存储原始数据和处理后的数据。这使得能够立即、全局地访问数据。

实施模型和数据跟踪：使用 MLFlow、DVC 或 Google Vertex AI 管道等系统来跟踪模型、模型版本以及关联的数据和数据版本。

跟踪和管理生物变异性：建立质量控制流程，例如自动跟踪关键测定指标和异常值检测。建立流程，通过执行数据标准化来*限度地减少程序中的可变性。

实验室自动化：使用自动化/机器人实验室*限度地提高流程一致性，并在更新系统时执行用户实验室/用户验收测试。

用户友好的系统：确保系统易于实验团队导航并能够支持现代数据分析方法。这可能需要结合定制和购买的解决方案。

数据可访问性和交互：通过可视化和交互功能确保所有团队成员的数据可访问性，并实施灵活的治理系统来管理用户权限。

总结一下：我们总是需要问自己一个问题：通过以较低精度预测复杂的特性或生物学，还是以较高精度预测更简单的生物学，我们是否更有可能实现设计更好药物的目标？

一旦我们做出了这个因项目而异的决定，我们就可以以*方式优化整个技术栈（包括实验）的所有参数，以训练能够回答有意义的生物学问题的模型。

2. 支持数据驱动方法的公司文化和团队组织

如前所述，公司文化和团队将在创建数据驱动型组织时发挥关键作用。

企业文化：

有远见的领导力：最高管理层应该阐明成为数据驱动型组织的令人信服的愿景，并将这一愿景渗透到整个公司。这一愿景应该在各个层面上清晰一致地传达。例如，葛兰素史克（GSK）设立了高级副总裁兼人工智能和机器学习全球负责人，许多生物技术公司的团队中也设立了首席数据官。

以数据为中心的奖励系统：实施奖励系统，激励数据质量、可访问性和数据驱动的创新，而不仅仅是短期里程碑。

数据素养：通过建立定期培训计划和研讨会来优先考虑数据素养。确保所有团队成员了解他们在数据价值链中的角色以及他们的贡献如何影响组织的整体成功。

共享数据所有权：鼓励数据共享所有权的感觉。为科学家提供易于访问的工具，让他们自己执行简单的数据科学任务，并评估和更好地理解他们生成的数据和数据的质量。这培育了主动数据管理的文化。

关注端到端流程：促进对端到端数据流程的理解，而不是只关注个别技术。这有助于每个人认识到自己在更大背景下的角色的重要性。

共同责任和问责制：培养对短期和长期成果共同负责的文化。例如，机器学习在项目中的应用应该是数据科学家和湿实验室团队的共同责任。

持续学习：致力于员工的持续教育。分配时间和资源用于新系统和技术的持续培训。这延伸到了数据科学家和机器学习专家，他们需要深入了解湿实验室流程和生成的数据。

组织结构：

跨职能团队：组建具有共享数据目标和责任的跨职能项目团队。这应该包括数据科学家作为药物发现项目的核心团队成员。

同一地点：只要有可能，将团队放在同一地点以促进自发的互动和协作。如果这不可行，请使用技术来保持团队联系并促进频繁沟通。

标准化流程：在整个公司的所有团队中强制使用标准数据管道和系统。这种一致性有助于*限度地减少错误并促进更好的数据分析。

共同的成功和失败：庆祝共同努力的胜利，并让所有团队成员对任何缺点负责。这种方法可以培养团结感和共同承诺。

知识共享：促进不同团队和背景之间的知识共享。在定期会议中解释技术并沟通需求，并在整个企业中随时提供资源和信息。项目团队应保留所有决策和步骤的清晰文档，包括所使用的模型和数据。

产品团队：（即构建计算工作流程或分析系统的任何团队）需要由科学或用户主导，但软件开发人员或数据科学家需要成为核心产品团队的一部分。共同定义产品规范并执行用户验收测试是构建有用工具的关键。

参考链接：

https://medium.com/@leowossnig/the-right-data-for-good-results-introducing-the-5-vs-of-drug-discovery-data-331e29c683c5

【本文由投资界合作伙伴微信公众号：智药局授权发布，本平台仅提供信息存储服务。】如有任何疑问，请联系（editor@zero2ipo.com.cn）投资界处理。

好的数据应该是怎样的？AI药物发现数据的5V原则

相关资讯

三星入局搅动「一池春水」，人形机器人战场谁主沉浮？

谷歌大神Quoc Le团队新作：用简单合成数据微调即可解决

如何从汽车数据「金矿」里掘金？

国内第一个使用器官芯片数据获批IND新药背后的故事

《“机器人+”应用行动实施方案》

谷歌的 RT-2，是不是机器人的 GPT-3 时刻？

关于我们

对外合作

投稿邮箱

联系我们

投资界微信

投资界APP