我们的基因体时代-AI, Data和生物资讯 Day16- 视觉浏览定序档案格式SAM, BAM的工具

上一篇我们的基因体时代-AI, Data和生物资讯 Day15- 组装後的序列档案格式SAM, BAM上一篇介绍基因定序後的档案fastq,里面是储存一个个DNA序列的档案,但是并不包含此片段来自哪的资讯,所以必须在经过一个分析流程叫做sequence alignment,这个步骤就必须要把这一个个片段跟参考基因组做比较,看这片段是来自於哪里的,这时候的档案资讯就会记录每一个片段所比对到的位置,这样的档案格式就叫做Sequence Alignment Map(SAM),它的二进位压缩版本就是BAM,而平常大部分都是使用BAM档,因其可以节省空间。

那正常情况要如何来视觉化这样的档案呢?

https://ithelp.ithome.com.tw/upload/images/20210916/20103989OT3LClKqnt.png
上面这个就是使用IGV来视觉化这个BAM档看起来的样子。目前最主流的两个工具,一个是由美国NIH所开发的Integrative Genomics Viewer (IGV),算是这几年都有在稍微更新,甚至有推出IGV.js的开发者工具,可以做镶嵌式的应用。
https://ithelp.ithome.com.tw/upload/images/20210916/20103989rCT1DZDLid.png
视觉化序列排列的档案是有其必要的,像是上面这个范例,可以看到中间有一个区域,显示跟参考序列不同,为C的符号,但是仔细一看,这个区域的片段似乎比对上去的状况不是很好,很多都是非正确的比对,这就是常见在GC序列比例较多区域会看到的伪阳性的状况。
https://ithelp.ithome.com.tw/upload/images/20210916/20103989HkcWfUif3o.png
这边则是另一个例子,左边是被误判的,右边是比较正确的比对结果,这边可能要带入一点背景知识,基因的变异有两种,一种是所谓的天生的叫做Germline mutation,另一种则是後天的变异,通常是指肿瘤细胞上面的变异,叫做somatic mutation,所以要判断某个跟参考基因组不一样的变异是先天的还是後天的,就必须要将正常组织和肿瘤组织的定序资料做比较,当变异只在肿瘤细胞上观察到,那这就是体细胞变异,反之,两个都有,则是所谓的先天的变异。左边这个就是先把一些比对品质比较差的片段删掉後,反而没有发现某个地方是有基因缺失(deletion),这边其实就显示了目前根据参考基因组比对的一些偏差,当你定序的标的其和参考基因组差异越大时,有可能实际定序出来的片段,都无法正确比对到参考基因组上面,这也是目前第二代定序的一个局限所在。
https://ithelp.ithome.com.tw/upload/images/20210916/20103989tdDvwF2rt4.png
这边也是一个用视觉化工具发现在基因序列比对时有和真实情况相悖的情境,也显示人类基因序列的变异是非常多样的,这个区域是知名的EGFR基因上的一个变异叫做L747_A750delinsP,一个同时有基因缺失和插入的变异,这时候就必须要将他们合并再一起,否则会以为是两个变异一起发生。
https://ithelp.ithome.com.tw/upload/images/20210917/20103989ip5K0GuIsz.png
这边的例子则是显现第二代定序和第三代定序在找出比较大片段变异的能力差距,上面是第二代定序的资料,每个片段都比较短,下面则是第三代定序,每个片段相对来说都比较常,而这时就能由下面的第三代定序看到有一个500序列长度的反转,这个就在第二代定序中无法看出。

除了介绍IGV视觉化的样貌外,也展现了为何需要视觉化的必要性,同时也揭露人类基因变异的多样性,下面则是另一款由英国Wellcome Sanger institute所开发的软件叫做Artemis,相对於IGV,Artemis就聚焦在比较单纯的BAM视觉化,比较复杂的分析就令辟软件出来,它的介面相对的就是另一种更linux的风格。
https://ithelp.ithome.com.tw/upload/images/20210917/20103989SCAZ2h4ofN.png

当然,也有一些专门做视觉化的小工具比如DrukBam,他可以帮忙做一些比较远距的截图和简化的功能,可以绘制出如下的图片。
https://ithelp.ithome.com.tw/upload/images/20210917/20103989DmNzaHMO41.png
https://ithelp.ithome.com.tw/upload/images/20210917/20103989eWaTQRbp9P.png

bamview也是一个由英国Wellcome Sanger institute所开发比较单纯来看BAM的软件

James T. Robinson, Helga Thorvaldsdóttir, Aaron M. Wenger, Ahmet Zehir, Jill P. Mesirov. Variant Review with the Integrative Genomics Viewer (IGV). Cancer Research 77(21) 31-34 (2017).

Carver T, Harris SR, Berriman M, Parkhill J and McQuillan JA. Artemis: an integrated platform for visualization and analysis of high-throughput sequence-based experimental data.Bioinformatics (Oxford, England) 2011;28;4;464-9

James T. Robinson, Helga Thorvaldsdóttir, Douglass Turner, Jill P. Mesirov. igv.js: an embeddable JavaScript implementation of the Integrative Genomics Viewer (IGV). bioRxiv 2020.05.03075499.


这个月的规划贴在这篇文章中我们的基因体时代-AI, Data和生物资讯 Overview,也会持续调整!我们的基因体时代是我经营的部落格,如有对於生物资讯、检验医学、资料视觉化、R语言有兴趣的话,可以来交流交流!


<<:  我与程序的距离-Day2

>>:  Day2 个人部落格需求规划 - Next.js Frontend + Headless WordPress

30天学会C语言: Day 26-变数住哪里

变数 & 记忆体 变数的内容储存於记忆体中,记忆体就像是有很多格子的柜子,每格都会有一个编号...

[Day28] 前端部署网页的方式 (Vercel, AWS S3 & Netlify)

今天要和大家介绍的是前端部署网页的方法,分别是以下三个: Vercel AWS S3 Netlif...

Day29 资安小结 - 红队攻击流程与漏洞

上次我们讲到红队与蓝队,但其实还有紫队跟白队, 先介绍紫队,其实紫队是一个虚拟团队,通过红队与蓝队的...

【课程推荐】2022/3/5~3/6、3/12~3/13 软件架构师技能培训班

课程目标 了解软件架构师所应具备的技能与素养,分析与规划软件架构模型,撰写符合国际标准的SAD (S...