上一篇我们的基因体时代-AI, Data和生物资讯 Day01- 超越摩尔定律的资料增长介绍了生医领域在未来将会产生越来越多的资料,甚至可以使用像是DNA当作是储存工具,另外,还能将这些来自於个人的生医资讯,建立一个数位替身,来作为很多治疗和健康监测的目的,这代表者这些数据将是很好AI发挥功用的地方,所以这边继续打铁趁热把这主题往下谈论。
Artificial Intelligence实在是个太广的领域了,我想应该没有人可以说自己是...AI大师,里面包山包海的,根据问题和资料类型也会有不同的次领域,这个词在1930年代就被使用了,当初第一代的科学家像是Alan Turning等等都是这部分的先驱,而後有人分成Superintelligence, General AI, Narrow AI,根据其可以完成的任务内容而做这样的区分,目前是认为2045年之後是有机会有所谓的General AI,关於AI的进化可以参考Tim Urban的文章:The AI Revolution: The Road to Superintelligence,话说回来,这边可能会单纯分享机器学习的范围,然後特别去分享其在生物资讯中的应用。
最近这几年,机器学习这个名词开始在生物领域的文章中大喷发,这在以前是完全不用想的,毕竟这个东西对於传统的实验生物学家来说太像黑盒子了,但近年来欧美的大学教育中已经渐渐普及在教育这一代的年轻人怎麽活用这个东西,有点像是2000年代的Word, Excel, Powerpoint技能,整体来说,只要能定义清楚一个问题,并且可以有相配套的数据,便能使用机器学习作为解决的工具(通常这个问题都是比想像中复杂,很多尚不清楚影响因子会比较适合,反之,有明确假设和检定需求,其实用统计方法就可以直球对决了!),下面是目前机器学习用来的应用问题:
从这篇来自Nature Genetics Review,很清楚地把人类基因上结构展示出来,除了但纯核酸序列上基因的位置和功能外,其本身还有很多影响的机制,比如立体的折叠结构、上面的化学修饰、相关包覆蛋白质的影响。
机器学习的一个要点是喂进去的资料是否有代表性,假如用都是来自白种人的资料来预测黄种人的基因数据,那麽结果一定很不适用,目前医学界大部分的基因体资料都是来自白种人的,下面这张图显示了这个严重的资料倾斜问题:
由上面的图可以看到白种人数量占大多数基因体研究的比例大概快接近80%,这样得出的结果,对於其他人种的贡献度就会大大下降,像是下面这篇的研究,直接显示出这类种族偏差的资料输入研究,其模型套用在其他人种上,准确度的变化。
从上面的图形可以看出来,假如以这模型对应在欧洲人上的预测效果来看,最好当然是欧洲、再来是美洲、接者是南亚、东亚,最後是非洲,这篇论文主要是在说非洲人的整个AI基因体研究中的资料非常少,以致於这些研究产出的效益基本上没有办法提供给非洲人,也揭露了目前在基因体领域中,需要有更多元的资料之议题。
话说回来,也越来越多机器学习的模型直接被用来当作医疗器材使用,当作是辅助临床决策所使用,从最近的美国FDA资料,至少有77个以上的AI产品通过认证,里面有用来分析心脏血管的核磁共振影像、诊断睡眠疾病、糖尿病视网膜病变、皮肤肿瘤病变、电脑断层中锋预测、x光骨质预测、血糖变化预测、急诊病人分流、乳房摄影、肝肺电脑断层判读、心电图分析、心房震颤、长辈记忆评估、甲状腺结节分析、放射治疗剂量预测、加护病房决策系统、自闭症诊断等等,相信在不久的将来人们将能享受到更便宜快速的相关服务!
这个月的规划贴在这边文章中我们的基因体时代-AI, Data和生物资讯 Overview,也会持续调整!我们的基因体时代是我经营的部落格,如有对於生物资讯、检验医学、资料视觉化、R语言有兴趣的话,可以来交流交流!
一日客语:中文拜拜 客语:嘎子 Literal 是最近让我困惑的字,Literal到底是指? 之前对...
拖了这麽多天,终於完成了! 今天增加了拖曳的各个 interface还有事件,以及能把事件拖曳过去的...
上一篇可以生成QRcode那这篇来说说扫描QRcode 如果要扫描QRcode一定要先取得相机权限 ...
今日目标:了解C# script (脚本) unity主要利用C#控制游戏,学好C#的物件导向写法就...
Structure 假设我们有两个 function 如下: func myFunctionA ()...