我们的基因体时代-AI, Data和生物资讯 Day11-基因疗法中之腺病毒载体与机器学习

上一篇我们的基因体时代-AI, Data和生物资讯 Day10-基因疗法中之腺病毒载体与机器学习分享基因治疗中所使用的腺病毒相关病毒载体的改造使用机器学习的应用,腺病毒相关病毒是其中一种常用来作为基因疗法的载体,因为其对於宿主是无害的,但这也是双面刃,因为这病毒算是很常流窜在日常人类社会之中,所以常常一般人体内多少有些抗体,所以为了解决这个问题,必须要增加腺病毒外壳的多样性,以避免送到人体内时,已有中和抗体会降低其效果。腺病毒相关病毒外壳,主要由60个capsid蛋白组成,其中共有三种:VP1(713-738个氨基酸), VP2(580-610个氨基酸), VP3(524-544个氨基酸),如何经由有限的置换其氨基酸来达到最大化可用的多样性腺病毒相关外壳便能好好利用机器学习来克服这问题。

这篇延续上一篇,来一窥他们实际的算法细节,和相关资料。

https://ithelp.ithome.com.tw/upload/images/20210911/20103989CAEOXLZQbj.png

其机器学习的算法架构,一开始是使用三种策略:complate(C), random(R), additive(A),分别组合成三种资料及,来看其不同设计对於输出之模型影响,最小的资料集(C1+R2)是指收録1112个单一变异的病毒序列搭配含两个变异点的病毒序列共1756个,第二组资料(C1+R10)为收录1112个单一变异的病毒序列加上7908株病毒含有大於等於2个到10个变异点之病毒株,第三组资料(R10+A39)为收录7908株病毒含有大於等於2个到10个变异点之病毒株加上56472个具有2到39个变异点的病毒株。

然後用这些资料来训练模型,让其能藉由序列预测此修改过的病毒株序列能否成功合成病毒外壳,此时他们同时使用三种训练模型,分别为Logistic regression(LR), Convolutional neural networks(CNNs), recurrent neural networks(RNNs)。这样就有3X3种可能组合,最後再将其随机组合成esemble的形式来输出预测,并且排序21亿偬组合序列,并且选出前一百高分数之序列组合。

https://ithelp.ithome.com.tw/upload/images/20210911/20103989AZcn3vMYQD.png
从上面的结果可以看到不同资料集,其在不同模型下,能否提高更多变异差异的病毒株之能力,其中测试了至少201426组变异。上面是模型选择的序列,下面则是模型设计的序列,可以看到利用机器学习的模型也可以大幅增加各种模型下,在比较多变异下依旧维持多样性的能力。

https://ithelp.ithome.com.tw/upload/images/20210911/20103989iKZPjgXd5b.png
这边是其所分享的github页面,其中有注明会相关连的程序工具:
- PEAR
- Pandas
- Numpy
- BioPython
- PyDNA
- editdistance
- TensorFlow

高通量实验设计

第一步序列设计原始代码
第二步转换资料成晶片合成输入
第三步模拟实际Cloning结果

病毒外壳定序资料输入

输入病毒实验後定序结果


这个月的规划贴在这篇文章中我们的基因体时代-AI, Data和生物资讯 Overview,也会持续调整!我们的基因体时代是我经营的部落格,如有对於生物资讯、检验医学、资料视觉化、R语言有兴趣的话,可以来交流交流!

阅读参考

Bryant, D.H., Bashir, A., Sinai, S. et al. Deep diversification of an AAV capsid protein by machine learning. Nat Biotechnol 39, 691–696 (2021). https://doi.org/10.1038/s41587-020-00793-4


<<:  [想试试看JavaScript ] 函式 回传值

>>:  铁人赛 Day11-- PHP SQL基本语法(六) -- INSERT 基本语法

Day-1 前言&Excel介面简介

今年要跟大家分享我觉得大学生必学也必须要知道的30个Excel技巧,首先我先自我介绍一下我自己。 我...

Day16 Grafana (Match Making)

昨天我们安装了 Prometheus 与 Grafana ,来协助我们观察 Open-Match 的...

E-Aadhar UIDAI Gov, Status Check Online

An Indian resident needs an Aadhaar to profit from...

Day21

今天继续看指标与阵列陷入深深地不知该如何写心得中,指标*ptr是专门用来指向物件记忆体位置的类型。在...

[DAY 19] 卡多利亚良食故事馆

卡多利亚良食故事馆 地点:台南市後壁区42-27号 时间:9:00~17:00 对於一个研替来说 最...