我们的基因体时代-AI, Data和生物资讯 Day18-基因变异的档案格式VCF

上一篇我们的基因体时代-AI, Data和生物资讯 Day17-分析定序档案格式SAM, BAM的工具上一篇接续介绍怎麽来利用和分析BAM/SAM档案内的基因序列比对资料,其中最主要的工具是samtools,可以利用其浏览BAM/SAM档案,做基本之描述统计分析比对结果,近一步分析档案内的细节,直接做基因变异之分析,BAM/SAM档案之排序、合并、格式微调,建立索引或是档案格式之转换,当然也是可以使用R里面Bioconductor或是Python里面的工具来做处理(虽然这两个语言环境中也是调用samtools来做运算)。

基因变异的来由

人类的染色体到底有多少序列,到底人跟人之间差异有多大,人有多少个基因,这些知识其实都是在最近这二十年才比较多理解,从人类基因组计画的关系,我们开始拥有价格比较亲民的定序技术和开发出一系列的分析算法,但只取得一组所谓的人类参考基因组并不能让我们知道我们人跟人的差异,所以人类基因组计画後,还有许多更大型的定序计画,如1000人定序计画1000 Genome Project,在这个计画中总共定序2504个人,这些人来自26种族包括来自非洲、东亚、欧洲、南亚、美洲,下面地图中的地方是这个计画有收录的人种来自之地区:
https://ithelp.ithome.com.tw/upload/images/20210918/20103989QhMnNP2cye.png
一个人的基因跟目前人类参考基因组比较来看,平均会有4百万到5百万的位置之差异,大概有百分之99.9%的变异都是单硷基的变异,但还是有大概2100到2500个比较长的变异(structural variation, > 500bps),下面这张图比较了不同种族跟参考基因组之差异,里面可以看到欧洲人跟人类参考基因组的差异比较少(当然,因为人类参考基因组有80%来自一个欧洲血统的受试者),大部分在一个人之基因序列中观察到跟人类参考基因组之差异是>0.5%的,只有大概4万到5万的位点是在族群中小於0.5%的。
https://ithelp.ithome.com.tw/upload/images/20210918/201039894J7uyIAuXa.png

基因变异的资料格式:Variant Calling Format(VCF)

所以有了定序资料的比对资讯BAM,我们就可以从中来分析所谓的变异资讯,这时候输出的资料也会有个统一格式,叫做Variant Calling Format(VCF),这个格式也是在执行1000 Genome Project时候所提出的,为了解决如何去储存和方便後续分析所使用的资料格式,一开始是由1000 Genome Project所维持,後来则由Genomic Data Toolkit所维持,详细的资料规格也可以在此一览
范例的VCF档案长得如下:
https://ithelp.ithome.com.tw/upload/images/20210918/20103989wPF9q6CR5F.png

整个资料也可以分成两个部分:header和variants
header的部分主要是用来记录这个资料的一些meta资讯如这分资料是使用哪个版本的VCF、里面所用的样本模式、等位基因的模式、筛选的方式等等。

variants本身的资料则是由8个栏位所组成,分别是:
*#CHROM:第一个栏位就是注明这个变异为在哪一个染色体上面,通常是根据参考基因组来自於美国或是欧洲系统,有的会用1、2、....,有的则是chr1, chr2.....
*POS:这个变异点第一位置在此染色体的位置,是1-based的系统
*ID:通常是使用rs ID
*REF:对照参考基因组上的序列
*ALT:此变异实际的变化序列
*QUAL:通常是此位点的定序品质,要是这是个缺失变异的话,品质则是−10log10(位点之Phred品质参数)
*FILTER:是否有通过筛选条件
*INFO:这个栏位基本上就是整个资料中变化差异最多的,基本上可以扩充非常多资料,比如加入下表的一些资讯:
https://ithelp.ithome.com.tw/upload/images/20210918/20103989GxQzxlh9uP.png

阅读参考:
The Biostar Handbook

Human Molecular Genomics, 15th

Frazer, K. A., Murray, S. S., Schork, N. J., & Topol, E. J. (2009). Human genetic variation and its contribution to complex traits. Nature Reviews Genetics, 10(4), 241–251. doi:10.1038/nrg2554

The 1000 Genomes Project Consortium. A global reference for human genetic variation. Nature 526, 68–74 (2015). https://doi.org/10.1038/nature15393

GATK. VCF

SAM/BAM related specification

Understanding VCF format


这个月的规划贴在这篇文章中我们的基因体时代-AI, Data和生物资讯 Overview,也会持续调整!我们的基因体时代是我经营的部落格,如有对於生物资讯、检验医学、资料视觉化、R语言有兴趣的话,可以来交流交流!


<<:  菜主管常有的迷思

>>:  PM日常必备技能-沟通技巧

Day 23 - [Android APP] 01-架构介绍-MVVM

第 23 天,这几天库存真的用完了,所以文章都是最新鲜,当天写的喔!! 剩下 7 天,一起加油吧! ...

Day23-TypeScript(TS)函式(Function)的选择性参数(Optional Parameter)

今天要来介绍TypeScript(TS)函式(Function)的选择性参数(Optional Pa...

分布式可观测性 Tracing、Time Series Data、LSM浅谈

上篇回顾 分布式可观测性 Logging 浅谈 分布式可观测性 Structured Log 分布式...

SOC 1、2和3报告概述(SOC 1, 2, and 3 Reports Overview)

--服务组织控制(SOC) 以下是Microsoft网站的摘录: 企业越来越多地将基本功能(如数据...

[Day 5]新手村外的首战是史莱姆应该是定番吧(後端篇)

今天我们实作Users的CRUD,但今天因为花很多时间在前端的Header的排版,所以没有什麽时间可...