我们的基因体时代-AI, Data和生物资讯 Day06- 蛋白质结构和机器学习01

上一篇我们的基因体时代-AI, Data和生物资讯 Day05- 深度学习在基因体学的建模架构02上一篇文章明显可以看出是...因为昨晚有点事情,只好稍微糖塞一下,不过也是很合理的,就是在介绍Day04里面提到的一些工具,实际上是什麽,这几天有空也会再补齐一下,就当作是一个资源介绍的篇章,这边我们继续往下挑一个生物问题和资料,目前怎麽用机器学习的工具来解决。

今天直球对决蛋白质结构

想必大家都听过AlphaFold2,其在今年年中发表後震惊全球,因为蛋白质结构的预测可以说是很多科学家一生的工作,这边推荐想要更深度理解的话,可以看台湾大学陈倩瑜教授的在20210615课程的Youtube,陈老师在影片中讲解得非常清楚,从蛋白质结构的研究史、怎麽评估两个蛋白质之前相似度、氨基酸之间的共演化现象、怎麽做分类、将结构问题转换成分类问题、资料强化、氨基酸扭角。

蛋白质是怎麽摺叠的其实是相当复杂的问题,也算是生物领域一个圣杯级的问题,即时到如今几乎每天都有五篇以上相关折叠论文发表的时代,实际上还是没有定论,另一方面,生物体中,真核、原核细胞,甚至一个物种的不同蛋白质,其折叠过程都是有不同机制所牵涉的,而且单纯从一个氨基酸序列的资讯,其实它会是有一个非常巨大的折叠可能性,下面这个图来自於Leland Mayne在2017年在PNAS发表的论文The case for defined protein folding pathways中的示意图,是目前我们怎麽思考蛋白质折叠时候的一个概念,从一串氨基酸序列折成已知样子的过程,其实就是在寻找熵值最低的状态,但中间其实会有很多种折叠可能,所以单纯用模拟的方式去找寻一个最佳解,运算资源是非常可观的,而且实际上可能也是不符合真实状况的,一个序列真实状况中的折叠状况,也许只是它局部熵值最低的一种折叠可能!
https://ithelp.ithome.com.tw/upload/images/20210906/20103989TaovIuiH7Y.png

换句话说,单纯从序列本身的物理化学特性,可能没办法单纯用模拟的方式来做模型预测,另一方面,随者我们定序技术的进步,我们已经有各式各样物种在同一基因中,不同序列的版本,以及累积多年的真实世界资料,这就变成机器学习发挥功能的好时机:一个复杂的问题,其数值点间的交互关系不明确,也许就是直接从资料间的关系去建立学习模型。

能预测蛋白质结构,暗示我们可以创造新的蛋白质

AlphaFold2的发表,可能一般人不知道这个的重要性,『啊不就是预测它怎麽折的吗?有什麽了不起的』,这其实是开启以及链接我们目前另一个兴起的领域-合成生物学的无限可能(之後会有文章来介绍,合成生物学是什麽),换句话说,我们可以来试图创造想要的功能,蛋白质在体内的功能有百百种,光是酵素蛋白质,就已经对我们实体社会中有许多应用,更别提设计蛋白质药物,比如客制化去中和COVID脊蛋白的小抗体,大家以为化学合成的效率比生物合成还便宜许多,其实这只是在小分子的化合物合成,很多复杂化合物,其实单纯用化学方法是非常困难的,但是假如我们可以设计相对应的酵素来辅助,那麽效率可能是千倍以上,下面这张显示用酵素以及不用酵素,特定反应的提速倍率
https://ithelp.ithome.com.tw/upload/images/20210906/20103989sGCw8LemXp.png
看到这张图,可以知道有多夸张了,有的反应可以提速10^7倍,所以当我们可以用AlphaFold2预测蛋白质结构的话,近一步就是可以探索蛋白质设计的领域,然後用此来影响人类的食、衣、住、行。这部分推荐可以关注这领域的大神David Baker,设计蛋白质要考虑的因素还有所使用的生物工厂比如大肠杆菌、酵母菌或是更高等的细胞株,其中有很多细节,他们团队也在今年开发一整套快速小型中和抗体的开发方法,也已经进入临床试验。另外,当可以设计蛋白质後,开启的就是另一个黑宇宙了,之前参加MIT HTGAA课程时,其中一堂讲师DeepCure创办人Thras Karydis他课程的简报,这张精美的图直接让人对这样的未来充满期待!https://ithelp.ithome.com.tw/upload/images/20210907/20103989hC71tTDUDM.png

下一篇我们来细谈 AlphaFold2 和 RoseTTAFold的方法

阅读参考:
S. Walter Englander, Leland Mayne. The nature of protein folding pathway
AlphaFold 2
Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold. Nature 596, 583–589 (2021). https://doi.org/10.1038/s41586-021-03819-2
AlphaFold 1
Senior, A.W., Evans, R., Jumper, J. et al. Improved protein structure prediction using potentials from deep learning. Nature 577, 706–710 (2020). https://doi.org/10.1038/s41586-019-1923-7
Accurate Prediction of protein structures and interactions using a three-track neural netwrok. 2021. Science


这个月的规划贴在这篇文章中我们的基因体时代-AI, Data和生物资讯 Overview,也会持续调整!我们的基因体时代是我经营的部落格,如有对於生物资讯、检验医学、资料视觉化、R语言有兴趣的话,可以来交流交流!


<<:  D5: [漫画]工程师太师了-第3话

>>:  [Day02] - 旅途开始前的行前解说

Day 30. 监控大挑战 - 以 Zabbix 为例 - 完赛

Hi 大家今天是第三十天了,要跟大家回顾与心得。 这次个规划的主轴呼应第一天提及的精神 从需求出发,...

Day10 - 如何用手机连 Ruby on Rails Local 开发中的专案

前言 在开发时,除了用 Chrome 开发者工具切成不同尺寸确认外,若想在手机上操作的话... 说明...

React-视窗滚动改变DOM

一开始我想实现一个办法 就是在滑鼠滚动到指定位置时 我指定的区块会浮现出来 滑鼠往上滚时,区块会一起...

Day 29. F2E-完善过渡动画

昨天後来在看效果时,有发现过渡动画的元素已经完全超出卡片组件的范围了,这个不是我们想要的效果 理想...

Django + MariaDB 在 Amazon Linux 2-Day 05

Django + MariaDB 在 Amazon Linux 2-Day 05 今天的目的是要让 ...