预测2.14亿个蛋白质结构!AlphaFold 新成果再次引爆

来源:生命科学 【在线投稿】 栏目:综合新闻 时间:2022-08-04
作者:网站采编
关键词:
摘要:在可预测的2.14亿蛋白质结构中,约35%的结构已达到了实验手段获取的结构精度,80%的结构可靠性足以用于多项后续分析。 两年后的2020年11月30日,DeepMind率AlphaFold2再次参赛,在CASP14上一

在可预测的2.14亿蛋白质结构中,约35%的结构已达到了实验手段获取的结构精度,80%的结构可靠性足以用于多项后续分析。

两年后的2020年11月30日,DeepMind率AlphaFold2再次参赛,在CASP14上一举夺魁,预测结构达到原子精度,中值误差 (RMSD_95) 小于1埃,比次优系统准确3倍,可与实验方法媲美。

对于AlphaFold给制药行业带来的作用,潘毅的看法却更为积极。

通过挖掘已发现的两亿多蛋白质结构数据观察蛋白质整体折叠的分布规律,可以更清晰地认识蛋白质的进化、功能和分布。

在AlphaFold出现之前,他和他的团队就发展了神经网络回归预测蛋白质真实二面角的方法,为端对端的蛋白质结构预测提供了基础。

2016年,DeepMind公司开发的AlphaGo击败韩国传奇围棋选手李世石后,其先进性与潜力受到认可,DeepMind决定成立团队开始研究“蛋白质折叠问题”。

“AlphaFold使用信任度量pLDDT描述各个氨基酸在结构内的可信度,当pLDDT指标过低时,蛋白质结构就是不可用的。”

总结而言,AlphaFold蛋白质结构数据库中的结构虽然有不足之处,不能全部将其应用于研究中,但数量庞大的蛋白质结构对生命科学各个领域的研究,仍有着不可忽略的意义。

“已预测出的蛋白质结构,可以更好地帮助研究者解析人体蛋白质的功能,”加拿大蒙特利尔大学MILA实验室教授唐建表示,“但是对药物研发的影响有限。”

他认为,这些已经预测完成的蛋白质结构将为生命科学领域内的研究者们节省颇多精力与资金,可以直接从数据库中查找相应的结构进行研究,不必再自行解析。

虽然对部分蛋白质结构的预测不完全准确,但AlphaFold蛋白质结构数据库在开放数据的同时也提供了相应结构预测的准确度报告,为使用者提供参考。

CASP的组织者曾表示,AlphaFold2破解了有着50年历史的“蛋白质折叠问题”的重大难题。

唐建如今正集中精力研究图表示学习在新药研发中的应用。

2021年7月15日,DeepMind通过一篇Nature论文开源了其基于深度学习神经网络的AlphaFold2模型;

深圳湾实验室系统与物理生物学研究所副所长周耀旗教授,同样进行了多年蛋白质结构预测的研究。

但其预测出的2.14亿个蛋白质结构将起到非常大的作用,借助这些蛋白质结构,生物学领域的诸多问题可以从全新的角度进行解答。

AlphaFold蛋白质结构数据库向公众免费开放一年后,上周,它再次刷新了我们对它的期待:已预测出超过100万个物种的2.14亿个蛋白质结构,几乎涵盖了地球上所有已知蛋白质。

此次数据库更新的蛋白质三维结构涵盖了涵盖了植物、细菌、动物和其他微生物等多类别,并且能通过谷歌云公共数据集下载。

作为“圈内人”的生命科学领域研究者们,又是如何看待AlphaFold此次取得的成果?

虽然诞生只有只有短短四年的时间,但AlphaFold在蛋白质结构预测上的影响几乎翻天覆地。

“除非把世界上所有的蛋白质结构都预测并验证过了,否则是不可能达到100%的准确率。”

计算机背景出身的他表示,“人工智能有一个学习的过程,要通过大量的训练来提升其准确性。如果AlphaFold预测的蛋白质结构是不常见的结构,AI无法通过已有的知识学习到这个结构,预测时就容易产生偏差。”

美国密苏里大学哥伦比亚分校Shumaker讲座教授许东向雷峰网《医健AI掘金志》介绍,DeepMind此次发布的成果中,依旧沿用此前的AlphaFold工具,在技术上并无大的创新。

AlphaFold 2横空出世时的热烈场景重现,再次在国内外的社交媒体上引发热议。

此外,有些蛋白质本身结构不稳定,需要靠与其它分子结合来稳定化,其结构也难以准确预测。

潘毅向《医健AI掘金志》介绍,AI是一个能够利用现有的知识预测将来的工具,如果连现有的知识都是缺失状态,自然无法预测新结构。

数量庞大的蛋白质结构为生命科学研究带来的影响仍是毋庸置疑,尤其是在结构生物学的领域。

中国科学院深圳理工大学(筹)计算机科学与控制工程学院院长潘毅教授也有类似的顾虑。

而且,以上数据将继续免费向公众开放,DeepMind的CEO Hassabis博士说,“这是我们送给人类的礼物。”

2018年12月2日,AlphaFold横空出世,在第13届国际蛋白质结构预测竞赛(CASP13)上预测出了43种蛋白质中25种蛋白质的最精确结构,力压其他参赛者取得第一名 (在条目A7D下),其研究团队再次扩大,开始研究创新的新系统。

文章来源:《生命科学》 网址: http://www.smkxzz.cn/zonghexinwen/2022/0804/1354.html



上一篇:泰林生物(300813.SZ):泰林生命科学被认定为2022年
下一篇:2022年度第十五届“谈家桢生命科学奖”候选名单

生命科学投稿 | 生命科学编辑部| 生命科学版面费 | 生命科学论文发表 | 生命科学最新目录
Copyright © 2018 《生命科学》杂志社 版权所有
投稿电话: 投稿邮箱: