上一篇我们的基因体时代-AI, Data和生物资讯 Day06-蛋白质结构和机器学习01我们继续分享另一个重要的生物问题,如何从蛋白质序列来预测蛋白质的折叠功能,而这个问题在今年有突破性的进展,将会提速近年来逐渐火热的合成生物学领域,也就是我们可以用来设计新的蛋白质功能,今年这两个框架分别是AlphaFold2和 RoseTTAFold,可能会改变整个生物学领域。
这两个方式分别是Google的DeepMind和David Baker团队所发展的,只不过相对於DeepMind来说,David Baker算是computation protein design领域的资深研究学家,但就没有那麽高的名气,非常推荐他这部Youtube的演讲,分享他是怎麽设计针对COVID棘蛋白的小蛋白质(QB3 Webinar: Designing Proteins from Scratch for 21st Century Challenges)
这是AlphaFold1的架构图,可以跟等等要介绍的AlphaFold2的架构稍微比较一下,从前一篇可以知道,在看这类为了解决生物问题建立的模型,通常最重要的是去厘清他的输入到底有什麽,这样本质上会决定可以推演的东西有多少。
从AlphaFold2的架构,基本上,你会输入一个想要预测它怎麽折叠的蛋白质序列进去,实际上,整个算法会再去抓取两个相关资料库的资料来整合成模型的输入,第一个就是去看这个序列跟已知的序列资料库中的哪些蛋白质相似,以及在其他物种中,同样蛋白质名称的序列长怎麽样,将这些不同物种中产生同样蛋白质功能的序列整合成所谓的MSA(Multiple Sequence Alignment)的资料,长得就像是这样:
就是把这些类似或同样功能之蛋白质在不同物种中的序列转换成像这样矩阵,就是所谓的MSA,可以看出这在AlphaFold1中也是会用到这个矩阵资料,另外一个资料就是从目前已知的蛋白质结构资料库中去找寻上面那些MSA中,是否已经有部分结构的资料,将这两个资讯往下送去两个模组,一个是Evoformer和Structure module,总共Backward三次。
Evoformer细节的架构如下图:
可以看到这边引入了Attention Models,这边算是AlphaFold2跟AlphFold1最不一样的差异,这边其实是把蛋白质结构预测问题转换成图论里面的关联性预测,进一步能代表氨基酸之间的距离。
Structure module细节则是如下:
这边的着重的则是氨基酸序列间的旋转角度,这边他们设计了一种Attention Model叫做invariant point attention来处理这个资讯的传递和学习。
他们的技术细节可以直接看这个,写得非常细!
RoseTTAFold的架构可以参考他们发表在Science前上传到bioRxiv的论文,从文章的开头可以看出他们算是在AlphaFold2提出後,努力改良提出的版本,所以最大的特色就是可以用较低阶的显卡就在本机做预测:
DeepMind presented remarkably accurate protein structure predictions at the CASP14 conference. We explored network architectures incorporating related ideas and obtained the best performance with a 3-track network in which information at the 1D sequence level, the 2D distance map level, and the 3D coordinate level is successively transformed and integrated.
他们模型建构方式其实就是整合了Domain knowledge的想法(毕竟David Baker多年深厚的功力呀),相对於AlphaFold2的模型架构,这个模型可能在CASP14的Benchmark中表现无法如AlphaFold2一样,但其对於一些功能性的预测能力较好,下面是他的模型架构:
模型的架构也是采用Attention model,但是简化很多,比较不像DeepMind有很多高级技巧,他们的基本架构是分三个部分来学习,第一个部分是学习蛋白质的一微结构(就是序列),第二部分则是二级结构(alpha helix, beta sheet),最後则是三级结构(就是综合所有二级结构间的关联),他们有建立一个可以线上使用他们模型来做分析的,位置在这边。
阅读参考:
AlphaFold 2
Senior, A.W., Evans, R., Jumper, J. et al. Improved protein structure prediction using potentials from deep learning. Nature 577, 706–710 (2020). https://doi.org/10.1038/s41586-019-1923-7
RoseTTAFold
Accurate Prediction of protein structures and interactions using a three-track neural netwrok. 2021. Science
这个月的规划贴在这篇文章中我们的基因体时代-AI, Data和生物资讯 Overview,也会持续调整!我们的基因体时代是我经营的部落格,如有对於生物资讯、检验医学、资料视觉化、R语言有兴趣的话,可以来交流交流!
<<: 铁人赛 Day7 -- PHP SQL基本语法(二) -- Session 你到底可以干麻
设置 Table 我们需要定义资料库名称与版本 将建立 Table 的 SQL 写在这 onCrea...
iOS App 架构演化史探访 启程宣言 为什麽有这个宣言? 今天看了iPlayground 201...
if 当条件成立的时候会执行 if 陈述式里的程序,而不成立时则执行另外一个陈述式。if 单从字面上...
tags: swfLAB ⚠️ Of course this is only my personal...
总览 API 路径(Endpoint)的一般安全准则。 注意事项 存取控制 API路径应遵循最小特权...