我们的基因体时代-AI, Data和生物资讯 Day01- 超越摩尔定律的资料增长

这个月的规划贴在这边文章中我们的基因体时代-AI, Data和生物资讯 Overview,也会持续调整!我们的基因体时代是我经营的部落格,如有对於生物资讯、检验医学、资料视觉化、R语言有兴趣的话,可以来交流交流!

没有了数据的AI就是耍流氓,要发挥AI最大效果的地方就是数据飞快增长的地方,网路相关产业的数据增长,以及运算成本的下降,算是造就了这一波的AI浪潮,另一个潜伏的重要领域就是生医产业,先不提影像、生理资讯,光谈基因定序的增长和价钱的变化,就是一个超越摩尔定律的增长曲线。

数据在哪,AI就在哪立足

美国国家人类基因体研究中心:定序每百万个序列的价钱
从上面这个图可以看到,数量和价钱是反比关系的,在2003前第一个人类基因体定序的数据,花了27亿美元,跟曼哈顿计划以及阿波罗计画并列美国20世纪的三大工程之一,如今以2021年台湾定序一个人全外显子序列(占一个人全部基因序列的约莫1-4%)大概只需要8000元成本价,短短不到二十年,这个成本下降的速度飞快,当然这也暗示者後续的资料储存和分析的成本将大幅上升。所以,产生大量数据的基因体领域,一定是未来AI重要发挥的地方(已经是了),所以刚好在这一系列中来分享这个主题绝对是非常洽当的。

台湾人体生物资料库是近年来台湾很重要的一个计画,要收集至少二十万人的基本资料包含健康情况、医药史、生活环境等,做为医疗和健康相关使用,可以看到下面的表格,是从一个人取得基因体资讯的档案大小:
https://ithelp.ithome.com.tw/upload/images/20210901/20103989eR6tRA01Ac.png
可以看到一个人单看衍生的基因体资料就要500Gb,二十万人的话,加起来就是十万Tb的资料大小,需要至少十台全台最顶级的高速电脑台湾山三号的储存空间。

未来的冷储存用的会是DNA

除了知道外来生医产业会是一个巨量资料的储存地外,另一个有趣的点是相对於资料产生的速度,目前资料储存的设备的制造速度已经慢慢追不到资料产生的速度了,那解铃还须系铃人,其实基因成分核酸,由A、T、C、G所组成,本身也可以用来储存资料,只是相对於传统资料以0和1来储存资料,它每个位置有四个模式可以来储存,除此之外,DNA是非常稳定的材料,我们能挖出几万年前的生物体,然後可以定序此生物之基因,还可以用此来知道人类的祖先,但硬碟大概能撑过十年就蛮了不起了,下面这张图:
https://ithelp.ithome.com.tw/upload/images/20210901/20103989aTbUms0e2f.png
可以看到从2015年开始,这个数据产生速度远高於资料储存的能力已经发生了。而下面这张来在Goerge Church教授在2012年发表於Science的文章:Next-Generation Digital Information Storage in DNA,比较了现代传统的硬碟和生物体储存资料间,资料写入量和资料储存密度的差异(这是2012年的数据,现在的话,可能不论是储存量和密度应该都远高於过去了)。
https://ithelp.ithome.com.tw/upload/images/20210901/20103989ygEHf34lCX.png

生医影像跟基因数据比起来,简单许多

大家对於AI应用在生医领域应该都是想到像是胸部X光片的判读、髋骨骨折判读等等,但实际上,对於AI的挑战来说,基因数据才是真的困难,可能有人会雌之以鼻,美国Scripps研究中心的所长,知名的Eric Topol医师在今年美国NIH National Human Genome Research Institute的系列演讲Machine Learning in Genomics中开场有提到,可以看他的简报:
https://ithelp.ithome.com.tw/upload/images/20210901/20103989eOXWMnCpzG.png
为什麽看起来比较复杂的影像会比右边的ATCG...字串资讯复杂呢?实际上是因为影像假如由pixel组成的话,pixel之间的关联性相对单纯,且有一个固定的模式,反之,在基因资讯中,每段资讯间的关联和互动是相当复杂的,甚至跟其在细胞中的3D立体结构有关,短短几句话,解释了为何基因资讯反而比左边的胸部X光困难许多。

数据双胞胎替你被实验

未来你将拥有一个数位替身,也就是一个可以代表你部分的生理模型,在2020年7月的时候美国举行了一个脑洞大开的工作坊:Toward Building a Cancer Patient 'Digital Twin',虽然数位替身或是数位双胞胎的概念其实在1990年在电脑科学家David Gelernter的书中有被提到,是用来作为产品生命周期管理的一个技巧,现在我们则可以用收集来自於我们身体的资讯来建立一个复杂的数位替身,并且用它来预测我们的复杂行为!
https://ithelp.ithome.com.tw/upload/images/20210901/20103989QCyksLHlcA.png

分享到这边应该已经感受到生医领域的资料是如此快速地增加,急须各界高手们来挖掘里面的宝库,这里的资料并非都是锁在私人机构里的,很多都是开放开源的,只是分析的背景知识会需要比较多一点,所以需要跨领域的人一起来合作开挖这个宝库!


<<:  D1- 谁适合使用 Google Apps Script (GAS)呀?

>>:  DAY1 起手式--建置 Nuxt.js 环境

[2021铁人赛 Day21] General Skills 18

引言 今天是我们 General Skills 最後一题,光是基础技能我们就花了 21 天呢......

day 8 - 程序码也要断舍离

生活要断舍离, 程序码也要喔。 写Go只要一支main.go就可以开始写了, 想写多长就写多长, 要...

【网路概论】L6-1 网路层协议

网路层协议 基本过程 终端设备藉由网路传输到另一个终端 经过以下四个基本过程 终端编址(addres...

Unity与Photon的新手相遇旅途 | Day11-敌人攻击

今天的内容为该如何简单制作出一个自动攻击的敌人 ...

人脸辨识的流程--人脸侦测

在上一章讲到人脸辨识系统有三个步骤,人脸侦测、特徵撷取、人脸识别。 在人脸侦测部分常见的有Haar-...