我们的基因体时代-AI, Data和生物资讯 Day13- 最基本的生物资讯资料格式Fasta

上一篇我们的基因体时代-AI, Data和生物资讯 Day12-基因疗法中之腺病毒载体与机器学习 我们分享了另一篇也是利用资料和简单数据分析来辅助基因治疗中的腺病毒相关病毒载体设计的文章。

发现有点拖延到预计规划的内容,想说只好忍痛先往下,本来预定第二周要开始分享一些分子生物学和基因定序相关的资料格式,但写了快两周,还没有把一些经典的生物领域机器学习应用分享完,可能等之後再找机会分享,但至少让大家知道所机器学习在生物领域可以应用的地方太多了,不要在千篇一律说什麽胸部X光或是电脑断层的AI预测了。

为了让之後分享各种基因定序资料格式或是相关概念比较清楚,这边先来的背景介绍!

人类基因体介绍

https://ithelp.ithome.com.tw/upload/images/20210913/20103989Ojo9PaYDkM.png
一个人的细胞中,都有23对染色体,染色体是由DNA和结构蛋白所组成的,而DNA则是由四种硷基组成:A、T、C、G。这些硷基的排列组合就会决定一个细胞会产生什麽蛋白质、怎麽去调控、怎麽去跟其他细胞互动、怎麽形成整个复杂组织,所以要是能读取其中的序列,将会帮助我们理解人的疾病和一些生理现象。

越来越便宜的定序成本

https://ithelp.ithome.com.tw/upload/images/20210913/20103989OE1Brc62Uy.jpg
就是因为定序的便宜,所以资料量大增,这部分可以参考第一天的内容我们的基因体时代-AI, Data和生物资讯 Day01- 超越摩尔定律的资料增长
,这也是为何基因体学开始进入所谓资料科学领域的原因,当价钱很贵的时候,资料量相对的产出就少,唯有当价钱便宜才有可能越来越多,直到现在是资料多到分析的人不够以及储存空间不足。

最基础的基因资料格式:fasta

fasta格式其实是个非常有历史渊源的,他是来自於美国NCBI创办人David J. Lipman,原本这其实是一个演算法的名称,在1987年的时候所发表,是用来作为基因序列的搜寻引擎所用,也就是拿到一个序列,怎麽知道他来自於哪,或是跟谁很像。

作为最基本的一个生物资讯的资料格式,它可以用来储存DNA或是蛋白质的序列,他的资料结构非常简单,就长得像下面这样:

https://ithelp.ithome.com.tw/upload/images/20210914/20103989dqeS0qWxUP.png

这个资料基本上就是由两行组成,第一行是以>开头,用来描述这个序列是什麽,第二行则是序列本身的内容。

https://ithelp.ithome.com.tw/upload/images/20210914/20103989wSHZgiYX1O.png
另一方面我们可以根据这个开头的编码模式,知道这个资料来自於那个现行生物资料库!

阅读参考
Fasta format for nucleotide sequence
https://www.ncbi.nlm.nih.gov/genbank/fastaformat/

Query use format
https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=BlastHelp

Goodwin, S., McPherson, J. & McCombie, W. Coming of age: ten years of next-generation sequencing technologies. Nat Rev Genet 17, 333–351 (2016). https://doi.org/10.1038/nrg.2016.49

Logsdon, G.A., Vollger, M.R. & Eichler, E.E. Long-read human genome sequencing and its applications. Nat Rev Genet 21, 597–614 (2020). https://doi.org/10.1038/s41576-020-0236-x

Tslil Gabrieli, Hila Sharim, Dena Fridman, Nissim Arbib, Yael Michaeli, Yuval Ebenstein, Selective nanopore sequencing of human BRCA1 by Cas9-assisted targeting of chromosome segments (CATCH), Nucleic Acids Research, Volume 46, Issue 14, 21 August 2018, Page e87, https://doi.org/10.1093/nar/gky411

López-Girona, E., Davy, M.W., Albert, N.W. et al. CRISPR-Cas9 enrichment and long read sequencing for fine mapping in plants. Plant Methods 16, 121 (2020). https://doi.org/10.1186/s13007-020-00661-x

Gilpatrick, T., Lee, I., Graham, J.E. et al. Targeted nanopore sequencing with Cas9-guided adapter ligation. Nat Biotechnol 38, 433–438 (2020). https://doi.org/10.1038/s41587-020-0407-5

Payne, A., Holmes, N., Clarke, T. et al. Readfish enables targeted nanopore sequencing of gigabase-sized genomes. Nat Biotechnol 39, 442–450 (2021). https://doi.org/10.1038/s41587-020-00746-x

这个月的规划贴在这篇文章中我们的基因体时代-AI, Data和生物资讯 Overview,也会持续调整!我们的基因体时代是我经营的部落格,如有对於生物资讯、检验医学、资料视觉化、R语言有兴趣的话,可以来交流交流!


<<:  当计划赶不上变化... ISMS 制度怎麽继续玩下去?

>>:  JavaScript入门 Day08_如何使用字串3

【Day 27】- 再爬一次 Dcard ?(实战向 Dcard API 发出请求)

前情提要 昨天实战了分析了 CDC 官网,并找到了一个 API 能够查看确诊人数,并写个小程序向其发...

[Day13]Parking

上一篇介绍了Die Game,是一题判断骰子数字的题目,由於题目是中文,并且把解题丝路都跟你讲了,所...

大盘又跌啦!是不是想吃麦当劳阿??

今天的盘又是一个开高走低的情况 最近的盘真的是有够难做,作股票最讨厌的就是遇到这种情况。建议想入场的...

html字体的变化

让网页出现文字後想要改变文字的大小、颜色、字型...这时候就需要用到css了,你可以再新建一个档案并...

Day 11 | Dart 非同步 - Stream

Stream 简单来说就是一群iterable的非同步事件。 像是每秒输出一个数字,但是你可能会想说...