从序列到结构：AI 如何改变蛋白质折叠

如果我们可以使用人工智能来解开生命中最大的谜团之一——蛋白质折叠，会怎样？几十年来，科学家们一直致力于此。

机器现在可以使用深度学习模型以惊人的精度预测蛋白质结构，改变药物开发、生物技术和我们对基本生物过程的了解。

和我一起探索 AI 蛋白质折叠的有趣领域，尖端技术与生命本身的复杂性发生碰撞。

揭开蛋白质折叠之谜

蛋白质在我们体内像小型机器一样工作，执行分解食物或输送氧气等重要任务。它们必须正确折叠才能有效发挥作用，就像必须正确切割钥匙才能插入锁一样。一旦蛋白质被创造出来，一个非常复杂的折叠过程就开始了。

蛋白质折叠是长链氨基酸（蛋白质的组成部分）折叠成决定蛋白质功能的三维结构的过程。

考虑一串很长的珠子，必须以精确的形式排列；这就是蛋白质折叠时发生的情况。然而，与珠子不同，氨基酸具有独特的特性并以各种方式相互作用，使蛋白质折叠成为一个复杂而敏感的过程。

此处的图片代表人类血红蛋白，这是一种众所周知的折叠蛋白

蛋白质必须快速而精确地折叠，否则它们将被错误折叠并产生缺陷。这可能导致阿尔茨海默氏症和帕金森氏症等疾病。温度、压力和细胞中其他分子的存在都会对折叠过程产生影响。

经过数十年的研究，科学家们仍在努力弄清楚蛋白质是如何折叠的。

值得庆幸的是，人工智能的进步正在促进该行业的发展。科学家们可以通过使用比以往任何时候都更准确地预测蛋白质的结构机器学习算法检查海量数据。

这有可能改变药物开发并增加我们对疾病的分子知识。

机器能表现得更好吗？

传统的蛋白质折叠技术有局限性

几十年来，科学家们一直试图弄清楚蛋白质折叠，但这个过程的复杂性使它成为一个具有挑战性的课题。

传统的蛋白质结构预测方法结合使用实验方法和计算机建模，但是，这些方法都有缺点。

X 射线晶体学和核磁共振 (NMR) 等实验技术既费时又费钱。而且，计算机模型有时依赖于简单的假设，这可能会导致错误的预测。

人工智能可以克服这些障碍

幸运的是，人工智能为更准确和有效的蛋白质结构预测提供了新的希望。机器学习算法可以检查大量数据。而且，他们发现了人们会错过的模式。

这导致了能够以无与伦比的精度预测蛋白质结构的新软件工具和平台的创建。

最有前途的蛋白质结构预测机器学习算法

Google 打造的 AlphaFold 系统 DeepMind 团队是该领域最有前途的进步之一。近年来通过使用取得了长足的进步深度学习算法根据氨基酸序列预测蛋白质的结构。

神经网络、支持向量机和随机森林等机器学习方法有望预测蛋白质结构。

这些算法可以从庞大的数据集中学习。而且，他们可以预测不同氨基酸之间的相关性。那么，让我们看看它是如何工作的。

协同进化分析和第一代 AlphaFold

成功 AlphaFold 建立在利用协同进化分析开发的深度神经网络模型之上。共同进化的概念指出，如果蛋白质中的两个氨基酸相互作用，它们将一起发育以保持其功能联系。

研究人员可以通过比较众多相似蛋白质的氨基酸序列来检测哪些氨基酸对可能在 3D 结构中相互联系。

这些数据是 AlphaFold 第一次迭代的基础。它预测氨基酸对之间的长度以及连接它们的肽键的角度。这种方法优于所有先前的从序列预测蛋白质结构的方法，尽管对于没有明显模板的蛋白质，准确性仍然受到限制。

AlphaFold 2：一种全新的方法论

AlphaFold2 是由 DeepMind 创建的计算机软件，它使用蛋白质的氨基酸序列来预测蛋白质的 3D 结构。

这很重要，因为蛋白质的结构决定了它的功能，了解它的功能可以帮助科学家开发针对蛋白质的药物。

AlphaFold2 神经网络接收蛋白质的氨基酸序列以及有关该序列如何与数据库中其他序列进行比较的详细信息（这称为“序列比对”）作为输入。

神经网络根据此输入预测蛋白质的 3D 结构。

它与 AlphaFold2 有何不同？

与其他方法相比，AlphaFold2 预测蛋白质的真实 3D 结构，而不仅仅是氨基酸对之间的分离或连接它们的键之间的角度（如先前的算法所做的那样）。

为了让神经网络立即预测完整结构，结构被端到端编码。

AlphaFold2 的另一个关键特征是它提供了对其预测的信心程度的估计。这在预期结构上显示为颜色编码，红色表示高置信度，蓝色表示低置信度。

这很有用，因为它可以让科学家了解预测的稳定性。

预测多个序列的组合结构

Alphafold2 的最新扩展，称为 Alphafold Multimer，可预测多个序列的组合结构。即使它比早期的技术表现得更好，它仍然有很高的错误率。 25 种蛋白质复合物中只有 %4500 被成功预测。

70% 的接触形成的粗略区域被正确预测，但两种蛋白质的相对方向不正确。当中值比对深度小于大约 30 个序列时，Alphafold 多聚体预测的准确性会显着下降。

如何使用 Alphafold 预测

AlphaFold 的预测模型以相同的文件格式提供，并且可以以与实验结构相同的方式使用。为了防止误解，考虑模型提供的准确度估计至关重要。

它对于复杂的结构特别有用，例如交织的同聚体或仅在存在折叠的情况下折叠的蛋白质。
未知的配体。

一些挑战

使用预测结构的主要问题是在没有获得蛋白质和生物物理数据的情况下理解动力学、配体选择性、控制、变构、翻译后变化和结合动力学。

机器识别可以利用基于物理学的分子动力学研究来克服这个问题。

这些调查可能受益于专业高效的计算机体系结构。虽然 AlphaFold 在预测蛋白质结构方面取得了巨大进步，但在结构生物学领域还有很多东西需要学习，而 AlphaFold 预测只是未来研究的起点。

其他卓越的工具是什么？

玫瑰TT折叠

由华盛顿大学研究人员创建的 RoseTTAFold 同样采用深度学习算法来预测蛋白质结构，但它还集成了一种称为“扭转角动力学模拟”的新方法来改进预测结构。

这种方法取得了令人鼓舞的结果，可能有助于克服现有 AI 蛋白质折叠工具的局限性。

罗塞塔

另一个工具 trRosetta 通过使用神经网络训练了数百万个蛋白质序列和结构。

它还使用“基于模板的建模”技术通过将目标蛋白质与可比较的已知结构进行比较来创建更精确的预测。

已经证明 trRosetta 能够预测微小蛋白质和蛋白质复合物的结构。

深元PSICOV

DeepMetaPSICOV 是另一个专注于预测蛋白质接触图的工具。这些被用作预测蛋白质折叠的指南。它用深入学习预测蛋白质内部残基相互作用可能性的方法。

这些随后用于预测整体联系地图。 DeepMetaPSICOV 已显示出非常准确地预测蛋白质结构的潜力，即使以前的方法都失败了。

未来将会什么？

AI 蛋白质折叠的未来是光明的。基于深度学习的算法，尤其是 AlphaFold2，最近在可靠地预测蛋白质结构方面取得了很大进展。

这一发现有可能通过让科学家更好地了解蛋白质的结构和功能来改变药物开发，而蛋白质是常见的治疗靶点。

尽管如此，预测蛋白质复合物和检测预期结构的真实功能状态等问题仍然存在。需要更多的研究来解决这些问题并提高 AI 蛋白质折叠算法的准确性和可靠性。

然而，这项技术的潜在好处是巨大的，它有可能导致生产更有效和更精确的药物。

从序列到结构：AI 如何改变蛋白质折叠

揭开蛋白质折叠之谜