featureCounts中怎么实现定量分析操作
本篇文章给大家分享的是有关featureCounts中怎么实现定量分析操作,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。
featureCounts集成在subreads 软件中, 类似 word 和 office 的关系, subreads 这个软件也有对应的 R包Rsubreads
。
featureCounts 需要两个输入文件:
比对产生的BAM/ SAM文件
区间注释文件
对于区间文件而言,支持以下两种格式
GTF 格式
SAF 格式
GTF格式在之前的文章中详细介绍过,这里看下SAF格式,示例如下
GeneID Chr Start End Strand497097 chr1 3204563 3207049 -497097 chr1 3411783 3411982 -497097 chr1 3660633 3661579 -
就是\t
分隔的5列文件,记录了基因的染色体上的区间和正负链信息。
在featureCounts 软件中,有两个核心概念:
feature
metafeature
feature
指的是基因组区间的最小单位,比如exon
; 而metafeature
可以看做是许多的feature
构成的区间,比如属于同一个gene的外显子的组合。
在定量的时候,支持对单个feature
定量(对外显子定量), 也支持对meta-feature
进行定量(对基因进行定量)。
当reads 比对到2个或者以上的features 时,默认情况下,featureCounts在统计时会忽略到这部分reads, 如果你想要统计上这部分reads, 可以添加-O 参数,此时一条reads 比对到多个feature, 每个feature 定量时,都会加1,对于meta-features 来说,如果比对到多个features 属于同一个 meta-features(比如一条reads比对到了exon, 但这些exon 属于同一个gene), 则对于这个gene 而言,只会计数1次。
总之,不管对于feature 还是meta-feature, 只有比对多个不同的区间时,才会分别计数。
features 支持对单个样本定量,还支持对多个样本进行归一化。单个样本定量的用法如下
featureCounts -T 5 \ -t exon \ -g gene_id \-a annotation.gtf \-o counts.txt \mapping.sam
多个样本归一化的用法如下
featureCounts \-t exon \-g gene_id \-a annotation.gtf \-o counts.txt \ library1.bam library2.bam library3.bam
-a
参数指定的区间注释文件,默认是gtf格式;-T
参数指定线程数,默认是1;-t
参数指定想要统计的feature
的名称,取值范围是gtf 文件中的第3列的值,默认是exon;-g
参数 指定想要统计的meta-feature
的名称,取值范围参考gtf第9列注释信息,gtf的第9列为key=value
的格式,-g
参数可能的取值就是所有的key, 默认值是gene_id。
输出的表达量文件内容示意如下
# Program:featureCounts v1.6.0; Command:"./featureCounts" "-T" "20" "-t" "exon" "-g" "gene_id" "-a" "hg19.gtf" "-o" "gene" "accepted_hits.bam"Geneid Chr Start End Strand Length accepted_hits.bamDDX11L1 chr1;chr1;chr1 11874;12613;13221 12227;12721;14409 +;+;+ 1652 0
#
号开头的注释行,记录了运行的命令;Geneid
开头的行是表头,Geneid代表统计的meta-features的名称,Chr
,Start
,End
对应染色体上的位置,Strand
代表正负链,由于一个基因有多个外显子构成,所以这里的染色体位置信息有多个,和外显子个数一一对应。
Length
该区间的长度,最后一列的表头是你的输入文件的名称,代表的是这个meta-feature的表达量。
以上就是featureCounts中怎么实现定量分析操作,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注行业资讯频道。