【AI新领域应用】AlphaFold 2,原子级别精度的蛋白质3D结构预测,李沐论文精读(2021年nature正刊,2024诺贝尔奖)
最近一直忙,好久没更新了,11月还是得水一篇,其实前段时间看到新闻就想加这个了,一直没空看,终于打卡了。
中文标题:使用 AlphaFold 进行高精度蛋白质结构预测
英文标题:Highly accurate protein structure prediction with AlphaFold
发布平台:Nature
发布日期:2021-08-26
引用量(非实时):15560
核心观点
AlphaFold 通过结合新颖的Transformer 神经网络架构和基于蛋白质结构的进化、物理和几何约束的训练程序,极大地提高了结构预测的准确性。Evoformer 模块通过注意力机制和三角更新机制,完成序列比对(MSA)和结构模板中的信息的交换使得最终的序列抽象表示从而能够直接推理空间和进化关系结构模块则在蛋白质主链的基础上构建骨干框架,之后通过不变点注意力(IPA)整合所有信息,直接实现原子的3D坐标预测输出,并添加了很多辅助预测头实现更丰富的输出最后AlphaFold 通过自蒸馏技术进行数据增强,使用回收迭代机制实现自我强化;AlphaFold的预测结果经过严格的实验分析,在保持优越的预测性能的同时模型的稳健性也令人信服2024年的诺贝尔奖与AI
AlphaFold开发者获2024诺贝尔化学奖,AI抢夺科学家的最重要荣誉
刚刚,诺贝尔化学奖,揭晓!AI是没有边界的!
2024年诺贝尔化学奖公布,一半授予大卫·贝克(David Baker),“以表彰在计算蛋白质设计方面的贡献”;另一半则共同授予德米斯·哈萨比斯(Demis Hassabis)和约翰·M·詹珀(John M. Jumper),“以表彰他们在蛋白质结构预测方面的成就”。
德米斯·哈萨比斯和约翰·詹珀成功地利用人工智能技术预测了几乎所有已知蛋白质的结构。而大卫·贝克掌握了生命的构建模块,并创造了全新的蛋白质。
揭晓了!2024年诺贝尔物理学奖授予了他们→
2024年诺贝尔物理学奖:两名科学家因人工智能的根本性进步而获奖
著名的普林斯顿大学教授、91 岁的约翰-霍普菲尔德和加拿大多伦多大学教授、76 岁的杰弗里-辛顿,“因利用人工神经网络实现自动学习的基础发现和发明”而获奖。
人工神经网络的灵感来源于我们大脑中的神经元网络。自 20 世纪 80 年代以来,他们一直致力于这一课题的研究。
诺贝尔物理学奖委员会主席埃伦-蒙斯(Ellen Moons)向媒体解释说:"2024 年的获奖者们利用统计物理学的基本概念设计出了人工神经网络,这种网络的功能类似于联想记忆,能在大型数据集中发现规律”。
诺贝尔文学奖要颁给ChatGPT?奥特曼得奖呼声高,Hinton怒斥:他不配!
学习资料
论文原文:deepmind, nature正刊,李沐B站
摘要:
Proteins are essential to life, and understanding their structure can facilitate a mechanistic understanding of their function. Through an enormous experimental effort1–4 , the structures of around 100,000 unique proteins have been determined5 , but this represents a small fraction of the billions of known protein sequences6,7 . Structural coverage is bottlenecked by the months to years of painstaking effort required to determine a single protein structure. Accurate computational approaches are needed to address this gap and to enable large-scale structural bioinformatics. Predicting the three-dimensional structure that a protein will adopt based solely on its amino acid sequence—the structure prediction component of the ‘protein folding problem’8 —has been an important open research problem for more than 50 years9 . Despite recent progress10–14, existing methods fall far short of atomic accuracy, especially when no homologous structure is available. Here we provide the first computational method that can regularly predict protein structures with atomic accuracy even in cases in which no similar structure is known. We validated an entirely redesigned version of our neural network-based model, AlphaFold, in the challenging 14th Critical Assessment of protein Structure Prediction (CASP14)15, demonstrating accuracy competitive with experimental structures in a majority of cases and greatly outperforming other methods. Underpinning the latest version of AlphaFold is a novel machine learning approach that incorporates physical and biological knowledge about protein structure, leveraging multi-sequence alignments, into the design of the deep learning algorithm.
翻译:
蛋白质是生命所必需的,了解其结构有助于从机制上理解其功能。通过大量的实验努力1–4,人们已经确定了大约 100,000 种独特蛋白质的结构5,但这只是数十亿已知蛋白质序列中的一小部分6,7。确定一个蛋白质结构需要数月甚至数年的艰苦努力,这阻碍了结构覆盖的实现。需要精确的计算方法来弥补这一差距并实现大规模结构生物信息学。仅根据蛋白质的氨基酸序列预测其三维结构(“蛋白质折叠问题”8 的结构预测部分)一直是 50 多年来一个重要的开放性研究问题9。尽管最近取得了进展10–14,但现有方法远远达不到原子精度,尤其是在没有同源结构的情况下。在这里,我们提供了第一种计算方法,即使在没有已知类似结构的情况下,也可以定期以原子精度预测蛋白质结构。我们在极具挑战性的第 14 届蛋白质结构预测关键评估 (CASP14)15 中验证了我们基于神经网络的模型 AlphaFold 的全新版本,结果显示其在大多数情况下准确度可与实验结构相媲美,并且远远优于其他方法。AlphaFold 最新版本的基础是一种新颖的机器学习方法,该方法将有关蛋白质结构的物理和生物学知识、利用多序列比对融入深度学习算法的设计中。总结:
背景:蛋白质是氨基酸序列,长串的序列会卷在一起,氨基酸之间相互吸引形成稳定的、独特的3D结构,3D结构的形状决定了蛋白质的功能。目的:给氨基酸序列,预测3D结构创新点:Alphafold1的结果不够精确,偏差不在一个原子大小的级别之内,而2达到了原子级别的精度。解读:
摘要的第一段话是说,蛋白质对生命是必要的,回忆下大家的生物学啊,我们会吃很多蛋白质,我们知道蛋白质是一个,非常健康的一种食物,我们体内有很多蛋白质,蛋白质是我们体内干活的那一个东西,我们的很多的生理活动,啊是用蛋白质来完成的,然后他的第一句话的下半段话是说写作技巧
这就是摘要背景知识
蛋白质一级结构:组成蛋白质多肽链(包含多个肽键 -CO-NH-)的线性氨基酸序列整体模型结构
输入部分
encoder
与transformer块不同的地方:
(1)先Pair与MSA的多头注意力交互一次,最后再过MLP后全返回到下面,也就是在每个块中都完成了一次MSA与Pair信息的交互
(2)多头注意力变两个,先处理行再处理列,因为输入是二维的
s表示蛋白质数量,第一个是要预测的,后面s-1个是数据库检索出来的
r表示蛋白质中氨基酸数量
c是每个氨基酸表示为长度为c的向量(通道数)
Evoformer是transformer的变种,不同的是transformer接收一个序列为输入,但是这里是二维矩阵
MSA中每一行都是一个氨基酸序列,每一列是同一个氨基酸在不同蛋白质中的表现
Pair中每一行列都是氨基酸的两两关系
最后的输出中c已经很好地捕捉到了氨基酸的两两关系
decoder
IPA接收氨基酸对、序列和回传的特征
Predict relative …得到蛋白质结构的相对位置
最后的Predict是预测3D空间中旋转的角度并计算3D位置
两种特征解码得到输出
欧几里得变换
具体来说他用的是欧几里得的变换,或者叫做刚体变换,我们来看一下具体怎么回事,假设这个点在空间中的位置是 x,x 是一个长为3的向量,这个点的位置是 y,那么我们要怎么样从 x 变换成 y 呢,在欧几里得里面他可以写成这样子,y 可以等于对 x 做旋转,就是一个 r,然后再做一下位移,这个地方 r 是一个3*3的一个矩阵,t 呢是一个3*1的一个向量,这样我只要能确定 r 和 t 的值的话,那么我就能从 x 还原到y,这里的好处是说,如果我们对这个蛋白质的整体的结构,做旋转或者位移,就是把一个全局的 r,或者 t 加在整个蛋白质上面的话,他不会影响这些局部的变换,就是导致从 x 变换成 y 的,这个 r 和 t 不会发生变化。
这样这个表示就是对于,全局的刚体变换是无关的,确定了主干的结构之后啊,上面的每一个氨基酸的下面这些部分,你可认为是,在每一个可以变换的原子 那个地方,我只要去关心他旋转的角度是什么就行了,这就是这个图上各种绿色的圈呢,一旦这个头已经固定在这个地方的话,我只要去关心,那些能够转的地方,到底转了多少就行了,当这个地方的变化呢,还是要满足物理和生物学的定义的,比如说两个氨基酸,只能通过一些特定的角度连在一起,你可以做的办法是说在训练的时候,我可以限制住,我的这些 r 和 t 可以要选取的值。
自蒸馏数据集:
训练样例有 25% 来自蛋白质数据库的已知结构,有 75% 来自自蒸馏集首先从Uniclust30数据集中筛选出的MSA(筛选标准:序列长度在200~1024之间,序列数大于200,同一序列在不同的MSA中重复出现时需要删除该序列)然后在 PDB 数据集上单独训练模型,并预测筛选出的MSA中355,993 个序列的蛋白质结构,以此预测结果作为“伪标签”创建一个结构数据集以在训练时使用对于每个预测残基,通过计算与其他残基的距离分布与参考分布之间的 KL 散度来实现置信度度量消融实验:
主要讲的是一些消融的实验,他主要的结果是放在图四,我们先看一下图4a,图4a这里一共有两个图,他分别是在,casp 14就是竞赛中的结果,以及在 PDB,也就是他用来训练模型的测试数据集上的结果,这个灰线啊 0表示的是他的基线,如果在灰色的右边就是比0大的话,表示比基线要好,如果在灰线的左边的话表示比0小,那么他就比基线要差,其中每一行表示的是一个方法好,首先看到这是基线,啊基线的结果,大概就是在这个灰线的样子,最上面表示的是如果使用,自蒸馏 会怎么样,也就是使用额外的,没有标注的训练数据集,对他进行训练,可以看到在竞赛数据集上,是高那么一些,但是在 PDB 这个数据集上,还是高了很多,很有可能是说 PDB 这个数据集他的,啊多样性更大一点,他的测试数据更大一点,下面呢就是去掉一些模块会怎么样,前面的这些都是去掉一些输入的数据,比如说把模板信息去掉,啊损失那么一点,如果呢把其中的一个直方图给去掉,也损失一点,如果呢把,原始的 MSA,但是用一个替代来去掉的话,也会损失掉一些,接下来是对模型的一些变换,比如说把 IPA 去掉,意味着是说你在解码器的时候,我不再使用一个注意力机制,把你的位置信息放进你的氨基酸的向量里面,可以看到会损失一些,但是在 PDB 上好像损失的并不大呀,然后是说,如果你没有使用BERT那种,带掩码的机制会怎么样,在竞赛数据集上还好,但是在 PDB 这个数据集上,损失还是比较大的,哎如果你不做回收,不做那四次回收的话,那损失是比较大的,如果你使用最简单的注意力机制,就是说我先按行做标准的自注意力,然后我再按列做标准的自注意力,而不使用三角更新,或者使用对信息来做偏差,或者使用门可以看到的话,这里差的还是比较大的,在 PDB 的数据上差的更多一些,或者说如果不做端对端的结构梯度,我理解就是你的编码器不参与计算梯度那损失更多了,最后是说你不做 IPA 也不做回收,那损失就是相当的明显这个地方啊,所以这个图想表达的核心思想是说,我这个网络虽然复杂,但是里面没有一块能去掉,把所有块加起来都是有好处的,但反过来讲这个模型还是相当的复杂,虽然这个地方已经做了很多消融实验了,但是你很难从,系统的对每一个模块看一下,他到底是不是重要,因为里面还是有很多模块没有zhu’yi检查到的,主流评价:
98.5%的人类蛋白质被AlphaFold破译,极大地扩展了蛋白结构覆盖率数据的免费开放将进一步的激发基础科学、药物研发、合成生物学设计方面的未来发展人类在认识自然界的科学探索征程中的里程碑事件,大大改进人类对于生命过程的理解2023年的拉斯克(“诺奖风向标”)基础医学研究奖授予给两位AlphaFold主要研发者局限性分析:
硬件需求高;不适用于过大的蛋白质或多蛋白质复合体对已有数据可能存在过拟合(第三方测试显示,已知结构准确率远高于未知结构)蛋白质结构拥有非常动态的结构,而目前的AlphaFold2 只能预测静态解可能存在过度工程化(部分技巧的作用存疑);部分超参没有充分测试没有揭示蛋白质折叠的机制或规则,以考虑解决蛋白质折叠问题该模型对于固有无序蛋白质是不可靠的,但可以通过低置信度分数传达了信息相关知识
AI蛋白质设计企业「分子之心」获数亿A轮融资,谢诺投资、深创投联合
2022年诺贝尔奖,将花落谁家?获奖预测!@MedSci
蛋白质凝胶电泳技术在作物品种鉴定中的应用
2024年诺贝尔奖即将揭晓!花落谁家?这几个“风向标”或许暗藏线索
2024年十大新兴技术有哪些,它们将如何影响世界?
低山侧柏人工林单木冠幅预测模型及精度评价
关怀人文、赋能科研 科大讯飞展示AI如何改变生活 — 新京报
分子系统生物学研究中心举办第二十六期未来科学沙龙中国科学院遗传与发育生物学研究所
覆盖10大医疗应用场景!国产AI大模型应用典型案例盘点
创新!南京农业大学团队揭示利用AlphaFold改造抗病基因在植物保护领域内的巨大应用潜力
网址: 【AI新领域应用】AlphaFold 2,原子级别精度的蛋白质3D结构预测,李沐论文精读(2021Nature封面,2024诺贝尔奖) https://m.huajiangbk.com/newsview627800.html
上一篇: 上海交大第254期励志讲坛“20 |
下一篇: 【学术前沿动态】2024年诺贝尔 |