千家信息网

导致uBAM迟迟无法流行起来的4个原因分别是什么

发表于:2024-11-20 作者:千家信息网编辑
千家信息网最后更新 2024年11月20日,今天就跟大家聊聊有关导致uBAM迟迟无法流行起来的4个原因分别是什么,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。uBAM就是非比对的BAM文
千家信息网最后更新 2024年11月20日导致uBAM迟迟无法流行起来的4个原因分别是什么

今天就跟大家聊聊有关导致uBAM迟迟无法流行起来的4个原因分别是什么,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

uBAM就是非比对的BAM文件,fastq可以通过picard这个工具将其转为这个格式。

它有不少优于fastq格式的地方,比如:同一个read的数据都在同一行;拓展性强,可以添加丰富的metadata;方便维护,同一个样本的测序数据甚至可以只通过一份uBAM来存储就行了等。

从我第一次知道uBAM的时候算起,已经过去4+年了。我也曾非常看好它,认为它必是以后存储下机数据的标准。然而时隔多年,很奇怪,uBAM这么好(GATK也都一直支持着这个格式),为什么还是迟迟不见它流行起来呢?

目前,使用uBAM格式的单位据我所知也仅仅只是一些比较大型的研究机构,比如美国的Broad Institute和英国的Sanger会采用它来存储下机数据。

这段时间思考下来觉得可能有以下几个原因,与诸位共享:

  1. BAM是"笨重"的,它并不是文本文件,你无法直接通过文本工具打开它查看具体内容。只能通过第三方工具或者专门的SAM/BAM程序包(或者API)来实现对它的操作。这对许多不熟悉这一处理方式的研究者来说,会带来很多麻烦。这等于是直接提高了操作这个文件的门槛,从这一点看使用体验确实远不如fastq

  2. 主流工具还不完全支持,除了samtools和与它相关的少量工具,并没有太多其他的工具直接支持在命令行操作BAM;

  3. BAM文件的空间占比并不比压缩了的fastq小很多,优势有限

  4. 底层IO效率方面,实际上也是文本格式的fastq(或者gzip压缩的fastq)要高于BAM。

从uBAM的这个现象,或许也侧面折射出了一些关于产品设计(或者方案设计)的问题。关于这个问题,我看到了三个地方,欢迎大家拍砖:

第一、体验。一个产品或者方案要流行起来,除了解决需求之外,对使用体验的关注度要高于技术的先进性和产品本身的完备性

第二、先发优势。时间一旦落后了(比如fastq早于uBAM很多年),用户习惯的更改需要有完备的技术解决工具来支持,降低切换成本,甚至实现无痛切换,从而最大程度的保留新产品的优势;

第三、看似简单的事物越是难以被取缔。fastq格式是一个存储测序数据极为简单、简明的数据格式,它只包含所有必须包含的内容,而且目标明确,就是序列ID、测序数据和质量值,它们都是必不可缺的信息,再多无用,似乎已是极致。

看完上述内容,你们对导致uBAM迟迟无法流行起来的4个原因分别是什么有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注行业资讯频道,感谢大家的支持。

0