谷歌旗下人工智能(AI)公司Deep Mind今年公布了2.2亿个蛋白质的预测结构,几乎涵盖了DNA数据库中已知生物的所有蛋白质。现在,另一个科技巨头正在填补蛋白质宇宙中的暗物质。
Meta公司(前身为Facebook)的研究人员使用人工智能预测了约6亿个蛋白质的结构,这些蛋白质来自细菌、病毒和其他尚未被表征的微生物。相关研究11月1日发表于预印本网站BioRxiv。
“这些是非常神秘的蛋白质,为深入了解生物学提供了可能性。”Meta人工智能蛋白质团队研究负责人Alexander Rives说。
该团队使用“大型语言模型”生成了这些预测。“大型语言模型”是一种人工智能,可作为通过几个字母或单词预测文本的工具的基础。
通常语言模型是在大量文本的基础上进行训练的。为了将其应用于蛋白质,Rives团队将已知蛋白质序列“喂”给它们,这些蛋白质可以由20个不同的氨基酸链表示,每个氨基酸链由一个字母表示。然后,该模型学会了在氨基酸比例模糊的情况下“自动补全”蛋白质。
Rives说,这种训练使模型对蛋白质序列有了直观的理解,蛋白质序列包含了蛋白质形状的信息。
第二步,受DeepMind开创性蛋白质结构人工智能算法AlphaFold的启发,模型将这种洞察力与已知蛋白质结构和序列之间关系的信息相结合,从蛋白质序列中生成预测结构。
今年夏天早些时候,Rives团队报告称,其模型算法名为ESMFold,虽准确性不如AlphaFold,但在预测结构方面要快60倍左右。“这意味着我们可以将结构预测扩展到更大的数据库中。”Rives说。
作为一个测试案例,研究团队决定将模型应用于大规模测序的“宏基因组”DNA数据库,这些DNA来自于环境,包括土壤、海水、人类肠道、皮肤和其他微生物栖息地。绝大多数编码潜在蛋白质的DNA条目来自从未被培养过的生物,也不为科学家所知。
Meta团队总共预测了超过6.17亿个蛋白质的结构,这项工作只花了两周时间。Rives表示,预测是免费的,任何人都可以使用,就像模型的底层代码一样。
在这6.17亿个预测中,该模型认为超过1/3的预测是高质量的,因此研究人员可以确信蛋白质的整体形状是正确的,在某些情况下,模型可以识别更精细的原子级细节。值得一提的是,其中数以百万计的结构都是全新的,与实验确定的蛋白质结构数据库,或从已知生物体预测的AlphaFold数据库中的结构都不同。
AlphaFold数据库的很大一部分是由彼此几乎相同的结构组成的,而宏基因组数据库则应该涵盖以前从未见过的蛋白质宇宙的很大一部分。
美国哈佛大学进化生物学家Sergey Ovchinnikov对ESMFold做出的数亿个预测表示怀疑。他认为,有些蛋白质可能缺乏确定的结构,而另一些可能是非编码DNA,被误认为是蛋白质编码材料。
德国慕尼黑工业大学计算生物学家Burkhard Rost对Meta公司模型的速度和准确性的结合印象深刻。但他质疑,从宏基因组数据库预测蛋白质是否真的比AlphaFold的精确度更高。基于语言模型的预测方法,更适合快速确定突变如何改变蛋白质结构,这是AlphaFold无法做到的。
据DeepMind的一位代表说,该公司目前没有计划在其数据库中进行宏基因组结构预测,但不排除在未来这样做的可能性。
韩国首尔国立大学计算生物学家Martin Steinegger认为,这类工具的下一步显然是研究生物学中的暗物质。“我们很快就会在这些宏基因组结构的分析方面出现爆炸式增长。”
相关论文信息:Evolutionary-scale prediction of atomic level protein structure with a language model
作者:辛雨 来源:中国科学报 发布时间:2022/11/2
机翻论文摘要:
人工智能有可能在进化的规模上开启对蛋白质结构的洞察力。最近才有可能将蛋白质结构预测扩展到两亿个编目蛋白质。要描述大规模基因测序实验所揭示的指数级增长的数十亿蛋白质序列的结构,就必须在折叠速度上取得突破。在这里,我们表明,使用大型语言模型从主序列直接推断结构,可以使高分辨率结构预测的速度提高一个数量级。利用语言模型在数以百万计的序列中学习进化模式的洞察力,我们训练了高达150亿个参数的模型,这是迄今为止最大的蛋白质语言模型。随着语言模型的扩展,它们学习到的信息能够以单个原子的分辨率预测蛋白质的三维结构。这使得预测的速度比最先进的方法快60倍,同时保持分辨率和准确性。在此基础上,我们提出了ESM Metagenomic Atlas。这是第一个大规模的元基因组蛋白质的结构特征,有超过6.17亿个结构。该图集揭示了超过2.25亿个高置信度的预测,包括数百万个与实验确定的结构相比较新颖的结构,使人们前所未有地看到地球上一些最不为人所知的蛋白质结构的广阔性和多样性。