我们的基因体时代-AI, Data和生物资讯 Day03- 基因医学的数据问题

上一篇我们的基因体时代-AI, Data和生物资讯 Day02- 机器学习在生物资讯中之应用介绍了机器学习在生物资讯中的一些常见应用,以及相关挑战,其中一个挑战就是这类模型本身的偏差,可能会造成使用者的伦理问题,因为模型是由资料所决定的,而当资料收集本身有偏差的时候,也会有所影响,尤其是在基因体学中,比如目前大部分的基因体资料都是来自於白种人为主,其中黑人所占的比重相当低的,相对的目前很多基因预测的结果可能不适用於黑人群体,这边往下去机器学习在基因医学中通常是要用来回答什麽问题,还有资料粗略长什麽样子。

基因医学领域的研究说白了就是在研究储存在细胞中DNA序列的功能和资讯是如何影响生物体,并且是否可以用这些资讯来客制化一个人的治疗计画。机器学习刚好蛮适合在这领域来一展所长的,可以用来让人们有更好的生活以及帮忙开发治疗疾病的技术。

我们看一下鼎鼎大名BRCA1基因序列的部分:
https://ithelp.ithome.com.tw/upload/images/20210903/20103989oZDib8ELv2.png
可以看到里面由四个字符组合而成,分别是A、T、C、G,也可以看到似乎里面有些规律可言(才怪xd可以肉眼看出来的话,那铁定是在说谎),这些序列除了长度非常长以外,还必须要用相关生物背景才会比较容易来进一步理解它。下面是稍微把这些超过八万长度序列,放入一些生物的意义进去:
https://ithelp.ithome.com.tw/upload/images/20210903/20103989uZDgeANf44.png
首先,其实对於一个没有基本生物知识的资料科学家来说,这还是.....无字天书,所以我们进一步皆是解释一下,正常来说,DNA在生物内部,会先转换成RNA,最後才变成蛋白质,但是不是来自於单个基因的所有DNA序列都会转换成蛋白质,部分会转换成蛋白质的区块称作外显子,不会转换成蛋白质的区块称作内显子,现在重新来看一下上面的图片:
https://ithelp.ithome.com.tw/upload/images/20210903/20103989QpOoPGXoya.png
现在应该就比较能体会到,其中的复杂度,原来一连串的字串,其有的区域会产生蛋白质片段,有的不会,这其实是必须靠实验来取得数据,不过多亏目前基因体学相关的研究方法很进步,这类的资讯大量累积中,所以会发现这个图还有一个玄机:
https://ithelp.ithome.com.tw/upload/images/20210903/20103989ITOLCpxvJG.png
他有很多种切分这个区块的版本,这还没有加上每个人这区域的基因可能有部分位点的差异进去,分享到这边应该可以稍微感到这领域富含很多值得用机器学习的方法来回答的问题!

一个人的基因体大概有30亿个硷基序列长度,里面有大概20000个会产生蛋白质的基因,还有25000个不会产生蛋白质的基因,有的基因很重要,有的基因到现在还不知道扮演什麽角色,下面这张来自Barabasi Lab的图片(2021. A wealth of discovery built on the Human Genome Project - by the numbers, Nature)
https://ithelp.ithome.com.tw/upload/images/20210903/20103989fqTRHFHFDo.jpg
这张视觉化的图片,很酷炫的用冰山来表达我们对於基因的理解,冰山的直径是相关疾病的数量,高度则是相关的论文发表,可以发现大多数的研究集中在少数的基因,而大部分的基因直到现在都是未知功能的。

https://ithelp.ithome.com.tw/upload/images/20210903/20103989mKARPth3KF.png
从这张图很好的显示了如何建立这个复杂模型的方式,他是需要跨领域的团队合作,上面是要参与的人,下面则是希望建立的模型类型,我们必须拥有良好的模式细胞,并且生物学家们设计实验来测试他们的功能,接者会取得大量数据,此时资料科学家能根据这些数据来进行建模,这些模型再跟临床场域专家来看是否能用做临床服务,同时也能收集实际病人的基因资讯(虽然这是一个简化的闭环,实际参与其中的团队可能更为复杂!)


这个月的规划贴在这篇文章中我们的基因体时代-AI, Data和生物资讯 Overview,也会持续调整!我们的基因体时代是我经营的部落格,如有对於生物资讯、检验医学、资料视觉化、R语言有兴趣的话,可以来交流交流!


<<:  离职倒数28天:日本人办婚礼不登记的理由

>>:  Day 3 - Android Studio 的设置

Day20 感谢祭

会点进来的人可能是因为看到标题,但是这不是钓鱼,我是真的想感谢愿意看我文章的人,以及那5位愿意订阅我...

Day 05 LINE bot上的Webhooks

Webhooks介绍 Webhooks在LINE bot里面做什麽 如前面提到Messaging A...

Python 关系运算符号和if用法

今天要来教大家数学的关系运算,也就是大於、等於、不等於...等等的,还有if的用法,就是假如某件事成...

[Day 18] 机器学习 boosting 神器 - CatBoost

CatBoost 今日学习目标 了解 CatBoost 模型 实作 CatBoost 回归模型-房价...

[Day31] 完结篇 感动最终回 - 我与 ASP.NET Core 3 的 30天

终於接束三十天的挑战,一开始也算是蛮突然决定要参加这次的铁人赛。 不过也藉着这次机会更深入了解ASP...