AlphaFold最新发布:生物大分子复合物结构预测问题将被解决?

本文主要是介绍AlphaFold最新发布:生物大分子复合物结构预测问题将被解决?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

谷歌DeepMind团队近几年在生命科学领域不断创造新的奇迹。该团队创造这些奇迹的最主要利器就是人工智能和深度学习。这可能要从他们在围棋领域的开创性工作说起。

2016年1月,DeepMind团队在国际著名杂志《Nature》发表了基于人工智能的围棋新算法(AlphaGO)。同年3月,AlphaGO 以4:1的比分,完美击败韩国职业九段棋手李世石,从此掀开了围棋历史的新篇章,彻底改变围棋训练和竞赛的模式。

随后,DeepMind转战生物科学领域。2018年,DeepMind利用卷积神经网络技术,训练出第一代AlphaFold(俗称 AlphaFold1)。AlphaFold1于2018年5月参加第13届国际蛋白质结构预测(CASP)大赛,并且取得不俗战绩。此时的AlphaFold虽然超出了人们的预期,但是与其他顶级研究团队(包括密歇根大学张阳教授团队)相比,并没有明显的优势。在不同的评价指标和范畴下(比如基于模板的TBM蛋白组),张阳团队甚至超过AlphaFold1的成绩 (Groups Analysis: zscores - CASP13)。AlphaFold1论文于2020年1月在《Nature》上发表。

2020年,DeepMind发布第二代AlphaFold(也称AlphaFold2),并参加2020年的第14届CASP大赛。AlphaFold2引进新的Transformer网络,实现端到端的机器模型训练。在CASP14上,AlphaFold2在所有的结构模型范畴,甚至是在几乎所有的单个蛋白目标,都大大超过其他参赛团队。这也是DeepMind在生命科学领域,第一次惊艳所有科学家的眼睛,真正的显示了人工智能在解决复杂生命科学上的巨大威力。尽管如此,此时的AlphaFold仅限于蛋白质单链的结构预测,对更加复杂、也更加重要的生物大分子复合物的结构预测尚未涉足。AlphaFold2论文于2021年7月发表在《Nature》期刊上。

2021年10月,DeepMind团队将AlphaFold2进一步推广到AlphaFold-Multimer,对蛋白质-蛋白质复合物的结构进行预测。尽管突破了该领域的传统,但是AlphaFold-Multimer在复合物的精度只达到了23%(即可以对23%的复合物产生高精度预测结构,改进后版本达到36%),比它在单链蛋白质上所创造的2/3左右的高精度蛋白预测成功率仍然逊色不少。显示出,蛋白质复合物的结构在当时仍然是一个远没有被解决的问题。AlphaFold-Multimer于同期发布在bioRxiv预印本网站上。

2023 年 10 月 31 日,DeepMind研究团队分享了最新一代 AlphaFold 的最新进展(论文称之为AlphaFold-last。我们在此称其为AlphaFold3,因为AlphaFold将来可能会继续更新)。其最新的模型现在可以对蛋白质数据库 (PDB) 中的几乎所有分子类型进行预测,通常达到原子精度。新版模型极大地扩展了应用范围,能够预测包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物的联合结构。这些不同的结构类型和复合物对于理解细胞内的生物机制至关重要。

AlphaFold3论文目前在Googleapis.com网站以博客形式发表。该论文并没有提供关于算法原理以及代码的任何细节。本文主要是来介绍一下AlphaFold3的模型预测精度的结果,让我们能够感知人工智能和生命科学最前沿的进展。

超越单链蛋白质折叠

AlphaFold2 是单链蛋白预测的根本性突破。AlphaFold-Multimer 随后扩展到具有多个蛋白质链的复合物,随后是AlphaFold2.3,它提高了性能并将覆盖范围扩大到更大的复合物。

2022 年,AlphaFold 与 EMBL 的欧洲生物信息学研究所(EMBL-EBI)合作,通过 AlphaFold 蛋白质结构数据库免费提供了几乎所有科学界已知的已编目蛋白质的结构预测。

迄今为止,已有 190 多个国家的 140 万用户访问了 AlphaFold 数据库,世界各地的科学家已经使用 AlphaFold 的预测来帮助推进各种研究,从加速新的疟疾疫苗和推进癌症药物的发现,到开发用于解决污染的塑料食用酶。

在这里,研究人员展示了 AlphaFold-latest 在预测蛋白质折叠之外的精确结构方面的卓越能力,可以在配体、蛋白质、核酸和翻译后修饰之间产生高精度的结构预测。

图1:AlphaFold 最新功能和性能;蛋白质-配体复合物 (a)、蛋白质 (b)、核酸 (c) 和共价修饰 (d) 的性能。

AlphaFold3 将生物组装的描述作为输入,其中包含聚合物序列和配体 SMILES,以及可选的共价键合配体的序列位置,并输出每个重原子 3D 位置的预测。水和氢被排除在外。用于训练模型的所有实验结构均来自 PDB,发布日期截至 2021 年 9 月 30 日。模板仅过滤为 2021 年 9 月 30 日之前发布的模板。

输入被「标记化」以获得模型输入,每个标准聚合物残基有一个标记,配体和非标准聚合物残基的每个重原子有一个标记。Token 的数量是不同硬件上计算时间和预测大小限制的主要驱动因素。为了便于计算,该团队在最多 5,120 个 token 的复合体上评估系统性能,但系统能够在具有大量内存的加速器上运行更大的复合体。

每个输出结构都带有每个原子、每个 token 对和聚合结构级置信度度量。此外,结构内的每个实体以及结构内实体之间的每个接口都具有关联的置信度度量。

研究人员主要展示了四个类别的性能:

  1. 尽管基线使用真实结合蛋白质结构作为输入,但 AlphaFold3 在 PoseBusters 配体对接基准上优于 AutoDock Vina 等经典系统,而 AlphaFold-latest 仅从蛋白质序列和配体身份开始。
  2. 它在蛋白质-蛋白质结构预测方面改进了 AlphaFold 2.3,特别是在某些类别(例如抗体结合结构)中。
  3. 在蛋白质-核酸界面上,AlphaFold-latest 优于竞争系统,而对于 RNA 结构预测,它优于自动化方法,但略低于使用手动专家干预的顶级 CASP15 参赛者 (AIchemy_RNA2)。
  4. AlphaFold3 能够预测其他实体的结构,如键合配体、糖基化和修饰的残基或核苷酸。

图 2: AlphaFold3在不同的分子类型中结构预测的例子显示。 预测的蛋白质链以蓝色显示(预测的抗体以绿色显示),预测的配体和聚糖以橙色显示,预测的 DNA 以粉色显示,预测的 RNA 以紫色显示,真实实验结构以灰色显示。

高精度结构预测加速药物发现

早期研究表明,AlphaFold3模型在一些与药物发现相关的蛋白质结构预测问题(如抗体结合)上大大优于AlphaFold2.3。此外,准确预测蛋白质配体结构是一种非常有价值的药物发现工具,因为它可以帮助科学家识别和设计可能成为药物的新分子。

目前的行业标准是使用「对接方法」(Docking)来确定配体和蛋白质之间的相互作用。这些对接方法需要一个严格的参考蛋白结构和配体结合的建议位置。

AlphaFold3通过优于报道的最佳对接方法,为蛋白质-配体结构预测设定了新的标准,而不需要参考蛋白质结构或配体口袋的位置-允许预测以前未被结构表征的全新蛋白质。

它还可以联合模拟所有原子的位置,使其能够代表蛋白质和核酸与其他分子相互作用时的全部固有灵活性-这是使用对接方法无法实现的。

例如,图3显示了AlphaFold3对最近发布的三个与治疗相关的蛋白质的结构预测结果。其中,AlphaFold3预测的结构(以彩色表示)与实验确定的结构(用灰色表示)非常吻合:

  1. PORCN::一种临床阶段的抗癌分子,与另一种蛋白质结合在一起。
  2. KRAS:具有重要癌症靶点共价配体(一种分子胶)的三元配合物。
  3. PI5P4Kγ:脂质激酶的选择性变构抑制剂,与多种疾病相关,包括癌症和免疫疾病。

图3:案例研究展示了 AlphaFold-latest 在治疗相关结构上的性能;PORCN (a)、KRAS (d) 和 PI5P4Kγ (e)。

该论文的共同作者之一,Isomorphic Lab, 正在将新一代 AlphaFold 模型应用于治疗药物设计,帮助快速准确地表征许多类型的大分子结构,这些大分子结构对治疗疾病很重要。

促进对生物学的新认识

通过解锁蛋白质和配体结构以及核酸和含有翻译后修饰的结构的建模,AlphaFold3 为检查基础生物学提供了更快速和准确的工具。

其中一个例子涉及到 CasLambda 与 crRNA 和 DNA 结合的结构,这是 CRISPR 家族的一部分。CasLambda 具有 CRISPR-Cas9 系统的基因组编辑能力,通常被称为「基因剪刀」,研究人员可以用它来改变动物、植物和微生物的DNA。CasLambda 更小的体积可以更有效地用于基因组编辑。

图4:与 crRNA 和 DNA(CRISPR 子系统的一部分)结合的 CasLambda (Cas12l) 的预测结构。

AlphaFold 的最新版本能够模拟如此复杂的系统,这表明人工智能可以帮助我们更好地理解这些类型的机制,并加速它们在治疗应用中的应用。

小结

AlphaFold3 在结构预测精度和预测范围上的巨大飞跃表明,人工智能有潜力极大地增强对构成人体的分子机器的科学理解——以及更广阔的自然世界。

虽然该研究仍在积极开发中,但谷歌 DeepMind 和 Isomorphic Labs 的研究人员相信,一般生物分子的计算结构预测可以通过 AlphaFold 等机器学习模型来实现,并为理解生物学开辟了许多令人兴奋的未来研究途径。

正如DeepMind团队在博客中所说的那样,“谷歌新一代 AlphaFold 模型为科学领域带来了无限的潜力,将在更广泛的自然界中提供更深刻的科学认识。这一巨大的进步预示着 AI 在生命科学中的前景广阔,为未来的科学探索提供了强大的支持。”

参考文献

Google DeepMind AlphaFold Team and Isomorphic Labs Team. "Performance and structural coverage of the latest, in-development AlphaFold model". Oct 31, 2023. 

https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/a-glimpse-of-the-next-generation-of-alphafold/alphafold_latest_oct2023.pdf

这篇关于AlphaFold最新发布:生物大分子复合物结构预测问题将被解决?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/356412

相关文章

IDEA和GIT关于文件中LF和CRLF问题及解决

《IDEA和GIT关于文件中LF和CRLF问题及解决》文章总结:因IDEA默认使用CRLF换行符导致Shell脚本在Linux运行报错,需在编辑器和Git中统一为LF,通过调整Git的core.aut... 目录问题描述问题思考解决过程总结问题描述项目软件安装shell脚本上git仓库管理,但拉取后,上l

Redis中Set结构使用过程与原理说明

《Redis中Set结构使用过程与原理说明》本文解析了RedisSet数据结构,涵盖其基本操作(如添加、查找)、集合运算(交并差)、底层实现(intset与hashtable自动切换机制)、典型应用场... 目录开篇:从购物车到Redis Set一、Redis Set的基本操作1.1 编程常用命令1.2 集

解决docker目录内存不足扩容处理方案

《解决docker目录内存不足扩容处理方案》文章介绍了Docker存储目录迁移方法:因系统盘空间不足,需将Docker数据迁移到更大磁盘(如/home/docker),通过修改daemon.json配... 目录1、查看服务器所有磁盘的使用情况2、查看docker镜像和容器存储目录的空间大小3、停止dock

idea npm install很慢问题及解决(nodejs)

《ideanpminstall很慢问题及解决(nodejs)》npm安装速度慢可通过配置国内镜像源(如淘宝)、清理缓存及切换工具解决,建议设置全局镜像(npmconfigsetregistryht... 目录idea npm install很慢(nodejs)配置国内镜像源清理缓存总结idea npm in

pycharm跑python项目易出错的问题总结

《pycharm跑python项目易出错的问题总结》:本文主要介绍pycharm跑python项目易出错问题的相关资料,当你在PyCharm中运行Python程序时遇到报错,可以按照以下步骤进行排... 1. 一定不要在pycharm终端里面创建环境安装别人的项目子模块等,有可能出现的问题就是你不报错都安装

idea突然报错Malformed \uxxxx encoding问题及解决

《idea突然报错Malformeduxxxxencoding问题及解决》Maven项目在切换Git分支时报错,提示project元素为描述符根元素,解决方法:删除Maven仓库中的resolv... 目www.chinasem.cn录问题解决方式总结问题idea 上的 maven China编程项目突然报错,是

在Ubuntu上打不开GitHub的完整解决方法

《在Ubuntu上打不开GitHub的完整解决方法》当你满心欢喜打开Ubuntu准备推送代码时,突然发现终端里的gitpush卡成狗,浏览器里的GitHub页面直接变成Whoathere!警告页面... 目录一、那些年我们遇到的"红色惊叹号"二、三大症状快速诊断症状1:浏览器直接无法访问症状2:终端操作异常

mybatis直接执行完整sql及踩坑解决

《mybatis直接执行完整sql及踩坑解决》MyBatis可通过select标签执行动态SQL,DQL用ListLinkedHashMap接收结果,DML用int处理,注意防御SQL注入,优先使用#... 目录myBATiFBNZQs直接执行完整sql及踩坑select语句采用count、insert、u

Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题

《Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题》在爬虫工程里,“HTTPS”是绕不开的话题,HTTPS为传输加密提供保护,同时也给爬虫带来证书校验、... 目录一、核心问题与优先级检查(先问三件事)二、基础示例:requests 与证书处理三、高并发选型:

前端导出Excel文件出现乱码或文件损坏问题的解决办法

《前端导出Excel文件出现乱码或文件损坏问题的解决办法》在现代网页应用程序中,前端有时需要与后端进行数据交互,包括下载文件,:本文主要介绍前端导出Excel文件出现乱码或文件损坏问题的解决办法,... 目录1. 检查后端返回的数据格式2. 前端正确处理二进制数据方案 1:直接下载(推荐)方案 2:手动构造