我们的基因体时代-AI, Data和生物资讯 Day10-基因疗法中之腺病毒载体与机器学习

上一篇我们的基因体时代-AI, Data和生物资讯 Day09-合成生物学与机器学习分享合成生物学领域跟机器学习的应用,跟Day08天的内容相似,也是一篇使用贝式集合模型来做实验设计,减少测试数量,提高最终的目标输出产量,不过在细节的算法这几天会把他补上来,因为稍微复杂一点。

在COVID19後大家多多少少知道病毒是非常复杂的,且听到病毒两个字可能就会非常害怕,但其实病毒有非常多种,有的病毒可以用来发展基因治疗,因其能把我们设计的基因放入到人体内,其中牵涉到复杂的机制,目前已经开始有些公司使用机器学习来设计及了解如何使用病毒载体来发展基因治疗技术,如知名的Dyno,今天介绍其中一个热门的病毒载体:腺病毒相关病毒
https://ithelp.ithome.com.tw/upload/images/20210910/20103989F13UDZQ9Xf.png
腺病毒相关病毒(Adeno-associated viruses)是小型、非致病、单股DNA之病毒,其属於小病毒家族(Parvoviridae),其必须在腺病毒或疱疹病毒帮助下才能在宿主内复制,其内的基因大小为4.7kb,其中有三个重要的片段,分别是non-structural(rep), structural(cap), assembly activating(aap), membrane associated accessory(maap)。它的优势在於低致病性以及多样化的基因型态,其对不同组织有不同的喜好(tropism),重组过的腺病毒相关病毒可以包覆目标基因(Gene of Interest)。

https://ithelp.ithome.com.tw/upload/images/20210910/20103989YDJHz3GIFn.png
腺相关病毒作为治疗的历史其实也有快50年了,目前已有一些通过FDA的审核如Luxturna,EMA, Zolgensma, Glybera

用机器学习扩增腺病毒相关病毒载体的可能性

https://ithelp.ithome.com.tw/upload/images/20210910/20103989STTkQEJBUl.png
这边的方式其实可以说是前两天分享的方法的实战篇,实际用来在设计扩增腺病毒相关病毒载体的可能性,此时就要根据场景来调整整个模型方式,以及所要设计的实验内容,相对於前两篇,我们要预测和设计的是实验中各种化学物的浓度,和如何能提高产量,但在这边我们要设计的是如何修改此病毒的基因序列来增加其生物多样性(有点像是要增加不同的工具特性)。

为何需要这件事呢?因为腺病毒相关病毒是满普遍存在在人类社会中的,所以很多人都有感染过,体内已有相关抗体,那这时候用此人抗体已经有中和能力的载体外鞘,那麽还没有达到基因治疗的效果前,就已经被人体内的免疫系统廓清了,所以藉由人工来扩增腺病毒相关病毒的外壳,大部分在cap片段的变异所产生的外壳,都无法正确组装。

这篇研究(Deep diversification of an AAV capsid protein by machine learning. Nature Biotechnology. 2021)则是探索如何藉由修改cap片段的序列,来产生正常功能的外壳,已包覆载运到宿主细胞内之基因,事情实际上比想像中复杂,一个腺病毒相关病毒的外壳,共有60个capsid蛋白所组合,这个capsid蛋白主要有三种:VP1(713-738个氨基酸), VP2(580-610个氨基酸), VP3(524-544个氨基酸),都是由cap这个片段的基因所产生的。一个氨基酸由三个核酸序列所转译而成,藉由排列组合这些核酸序列来找寻可能且可以组装病毒的外壳。

为了能产生给机器学习所用的资料,这篇研究一开始先使用一株天然存在的腺病毒相关病毒的核酸做起始,针对cap片段的DNA做修改,第一阶段是一次只针对一个氨基酸上的核酸做置换,总共有1112个组合,其中约有58%是可以成功组合的外壳核酸设计,接者再往下随机针对一次置换2-10个的氨基酸上之核酸做置换,1154个组合中只剩下0.3%是能再修改後正确组合成外壳核酸的设计。接者他利用这些资料来建立模型,进一步设计约56372个在cap片段有变异的病毒株都在2-39个变异之间,此时搭配机器学习的模型可以取得约62.5%的病毒株式是成功的,但值得注意的是其中1790株个别带有大於21个变异的病毒组,全部都是不具有成功组合的结果。

这篇有把实际建模的细节放到他们建立的github0102

明天看能否把他们的github细节来一探究竟!


这个月的规划贴在这篇文章中我们的基因体时代-AI, Data和生物资讯 Overview,也会持续调整!我们的基因体时代是我经营的部落格,如有对於生物资讯、检验医学、资料视觉化、R语言有兴趣的话,可以来交流交流!

阅读参考

Bryant, D.H., Bashir, A., Sinai, S. et al. Deep diversification of an AAV capsid protein by machine learning. Nat Biotechnol 39, 691–696 (2021). https://doi.org/10.1038/s41587-020-00793-4

Overcoming immunological challenges limiting capsid-mediated gene therapy with machine learning. Front. Immunol. 2021

Wörner, T.P., Bennett, A., Habka, S. et al. Adeno-associated virus capsid assembly is divergent and stochastic. Nat Commun 12, 1642 (2021). https://doi.org/10.1038/s41467-021-21935-5

Pierce J. Ogden, Eric D. Kelsic, Sam Sinai, George M. Church. Comprehensive AAV capsid fitness landscape reveals a viral gene and enables machine-guided design. Science, 2019; 366 (6469): 1139 DOI: 10.1126/science.aaw2900

Using a barcoded AAV capsid library to select for clinically relevant gene therapy. JCI Insight. 2019

Adeno-associated virus vector as a platform for gene therapy delivery, Nature Reviews Drug Discovery. 2019

Adachi K, Enoki T, Kawano Y, Veraz M, Nakai H. Drawing a high-resolution functional map of adeno-associated virus capsid by massively parallel sequencing. Nat Commun. 2014;5:3075. doi: 10.1038/ncomms4075. PMID: 24435020; PMCID: PMC3941020.


<<:  第五天:在 macOS 上安装 Gradle

>>:  离职倒数21天:「欸,蒲公英是什麽颜色?」谈工作上的沟通问题

Day 17. Hashicorp Vault: Server configuration for production

Hashicorp Vault: Server configuration for producti...

Day 14. slate × Interfaces × Ref

相信有 React 开发经验的读者们对 Ref 这个词一定不陌生。 其实 slate 里头的 Re...

[Day 30] - 终成行男

呼,想当初在铁人赛开赛前还在犹豫到底要不要开赛呢? 参赛後是要写什麽主题呢? 一探 React Na...

9. STM32-PWM 呼吸灯(下)

设定.ioc档 这边选择TIM2来做,首先进到.ioc当中先确认系统时钟频率为多少,这边我的是16M...

Day24 Gin with Cache

前言 我们在并发HTTP Server的时候,经常有对接口内容做缓存的需求。例如:某些热点内容,我们...