我们的基因体时代-AI, Data和生物资讯 Day08-合成生物学与机器学习

上一篇我们的基因体时代-AI, Data和生物资讯 Day07- 蛋白质结构和机器学习02:AlphaFold2 和 RoseTTAFold主要分享由DeepMind公司的AlphaFold2和David Baker团队的RoseTTAFold之简易架构,两个基本上都是基於Attention Model来架构,且使用预测蛋白质序列的相关序列矩阵和相关的蛋白质结构资料库,但AlphaFold2主要是有比较复杂的Model系统,而RoseTTAFold则是使用Domain Knowledge的概念来架构网络,分成一级结构、二级结构、三级结构分别来学习和预测。

什麽是合成生物学?

合成生物学(synthetic biology)本质上相对於传统生物学,更强调主动地去利用生物系统创造新的功能,目前已经是一个非常广大的领域,有的人专注在模式生物的改质、有的人在创造新的生物材料,且越来越多已经直接影响到人们的食衣住行。

有兴趣多了解的人可以看看下面这本书:
https://ithelp.ithome.com.tw/upload/images/20210908/2010398923FXnzLCL1.png

其中会牵涉到的事情就是去重组或是修改一段核酸,再放入到生物体中,这生物体可以是细菌、酵母菌、哺乳类细胞、植物,甚至不用是完整的细胞,但目前的问题是这些生物体是一个复杂系统,往往会发生无法预测的结果,所以变成需要大量的测试,这看起来就是一个不错的机器学习应用的实务场景。

机器学习与合成生物学中的例子

https://ithelp.ithome.com.tw/upload/images/20210908/20103989efk08y8OmZ.png
这篇研究就是在分享如何用机器学习来降低需要做的高通量实验数量,这边是在测试无细胞蛋白表达系统的各种溶液排列组合,基本上,这个实验中会有11种成分,分别是Mg-glutamate, K-glutamate, Amino acid, tRNA, CoA, NAD, cAMP, Folinic acid, Spermidine, 3-PGA, NTP,然後希望建立这组合跟萤光蛋白质产量的关系,初始阶段先选择22组想要测试的浓度,接者设定每个成分的最大浓度上限,这边采用ensemble neural network的架构,但跟其他领域的机器学习用法不同,这边其实是比较探索性的,他的做法主要来自於这篇论文High-Throughput Optimization Cycle of a Cell-Free Ribosome Assembly and Protein Synthesis System
https://ithelp.ithome.com.tw/upload/images/20210908/20103989EFpMNomvAm.png
实际上的概念就如这张图所示,假如有七组迭代的实验,每一次测试完後的数值和结果,会用来建立模型,接者来预测可能可以提高产量的实验参数,再往下一回合设计实验点,结束後再从实际实验的参数输入模型再往下进行另一回合,藉这个方法找到能取得最佳输入的参数组合模型。他所使用的方法为25层的feed-forward neural network,每层网络初始使用随机的权重,整个过程使用nnet这个R的函数包,每个网路11个节点,分别代表实验的参数,和一个输出结果,就是最後所量测的输出浓度。就由这样的方法,最後能将蛋白质的产量增加10倍。在这过程中还发现在传统认为需要添加的成分,在另外两个成分高浓度下,其实去掉反而有助於产量的上升。

阅读参考:
2020. A machine learning Automated Recommendation Tool for synthetic biology. Nature communications
2019. Opportunities at the intersection of Synthetic Biology, Machine Learning, and Automation. ACS Synth. Biol
2019. Adapting machine-learning algorithms to design gene circuits. BMC Bioinformatics
2021. In silico, in vitro, and in vivo machine learning in synthetic biology and metabolic engineering. Curr Opin Chem Biol
2018. High-Throughput Optimization Cycle of a Cell-Free Ribosome Assembly and Protein Synthesis System. ACS Synth Biol. 2018
ProtoLife: https://pdt.protolife.com/pdt_validation


这个月的规划贴在这篇文章中我们的基因体时代-AI, Data和生物资讯 Overview,也会持续调整!我们的基因体时代是我经营的部落格,如有对於生物资讯、检验医学、资料视觉化、R语言有兴趣的话,可以来交流交流!


<<:  【LeetCode】Array

>>:  铁人赛 Day8 -- PHP SQL基本语法(三) -- $_POST & $_GET

CMM和CMMI

-CMM和CMMI成熟度级别比较 软件工程学院(SEI),1984年 软件工程学院(SEI)於19...

[Vue2] 从初学到放弃 Day6-Template Syntax

Template Syntax Vue.js 最主要是基於HTML,在使用JQuery或者Js的时候...

Day26 - 用 Ruby on Rails 写分析股票的技术指标

前言 在做选股之前,可透过技术指标来分析,像是可以用 KD、均线、量价...等 说明 这边要申明下,...

学习Python纪录Day27 - Regular Expression正规表达式

正规表达式(Regular Expression) 一个范本的字串,在范本字串的每一个字元都有特殊意...

Day 10 - 用 canvas 复刻 小画家 放大镜

动手写看看 目前只能做到放大... const [magnifier, setMagnifier] ...