千家信息网

HISAT2如何使用

发表于:2025-02-02 作者:千家信息网编辑
千家信息网最后更新 2025年02月02日,这篇"HISAT2如何使用"文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇"HISAT2
千家信息网最后更新 2025年02月02日HISAT2如何使用

这篇"HISAT2如何使用"文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇"HISAT2如何使用"文章吧。

转录组比对软件HISAT2的使用说明

转录组分析的常用分析流程,目前都由Hophat + cufflinks 组合转向了 采用HISTA + StringTie 组合。该组合的Protocol 可参考发表在Nature Protocol 上的文章"Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown"

首先来看看比对的软件HISTA,其速度和精度都较Tophat 有很大的提升。

其使用说明如下:

hisat2 [options]* -x {-1 -2 | -U | --sra-acc } [-S ]

Index 文件的前缀 (*.X.ht2)

read1 文件 (支持gz,bzip2压缩格式)

read2 文件 (支持gz,bzip2压缩格式)

输出 unpaired 比对序列(支持gz,bzip2压缩格式)

支持对NCBI SRA数据的下载,采用逗号分隔不同SRA号

比对结果SAM 文件的输出 (默认: 标准输出)

, , 支持输入一个用逗号隔开的文件列表,也支持多次输入 比如: '-U file1.fq,file2.fq -U file3.fq'.

选项 (括号中是默认值):

输入:

-q 输入文件格式是FASTQ .fq/.fastq (default)

--qseq q输入文件格式是 Illumina's qseq format

-f 输入文件格式是多序列的FASTA .fa/.mfa

-r 输入是一行序列

-c , , are sequences themselves, not files

-s/--skip 跳过输入文件前面的 reads/pairs (none)

-u/--upto 超过输入文件前面的 reads/pairs 就停止程序(no limit)

-5/--trim5 去除Reads 5'/左边 碱基 (0)

-3/--trim3 去除Reads 3'/r右边 碱基 (0)

--phred33 序列质量值编码是 Phred+33 (默认编码格式)

--phred64 序列质量值编码是Phred+64

--int-quals 序列质量值是用空格分开的数字

--sra-acc SRA 登录号

比对:

--n-ceil 允许非A/C/G/Ts 在比对中的比例 (L,0,0.15)

--ignore-quals 如果忽略测序质量值,则默认质量值为30 (off)

--nofw 不比对正向的reads (off)

--norc 不比对反向互补的reads (off)

剪切比对:

--pen-cansplice 正常剪切位点的罚分 (0)

--pen-noncansplice 非正常剪切位点的罚分 (12)

--pen-canintronlen 长内含子正常剪切位点的罚分函数 (G,-8,1)

--pen-noncanintronlen 长内含子非正常剪切位点的罚分函数 (G,-8,1)

--min-intronlen 内含子最小长度 (20)

--max-intronlen 内含子最大长度 (500000)

--known-splicesite-infile 指定已知的剪切位点文件

--novel-splicesite-outfile 发现(报告)新的剪切位点

--novel-splicesite-infile 指定一些新的可变剪切位点

--no-temp-splicesite disable the use of splice sites found

--no-spliced-alignment 停用剪切比对

--rna-strandness 只能RNA的连特异性 (unstranded)

--tmo 只报告与已知的转录本比对上的reads

--dta 报告专门为转录本组装的比对reads

--dta-cufflinks 报告专门为cufflinks组装的比对reads

打分:

--ma 匹配得分 (0 for --end-to-end, 2 for --local)

--mp , 位点错误匹配的最大和最小罚分,低质量,低罚分 <2,6>

--sp , max and min penalties for soft-clipping; lower qual = lower penalty <1,2>

--np 非A/C/G/Ts 匹配的罚分 (1)

--rdg , read 空格开放和延伸的罚分(5,3)

--rfg , 参考序列空格开放和延伸的罚分 (5,3)

--score-min 最小可接受的比对打分 (L,0.0,-0.2)

比对报告输出:

(default) 多对比结果,只报告最好的比对

OR

-k 多比对结果,最多可报告的比对数量

OR

-a/--all 报告全部对比对结果

双端比对:

--fr/--rf/--ff reads 比对的方向 fw/rev, rev/fw, fw/fw (--fr)

--no-mixed 不做非配对的reads 比对

--no-discordant 比做距离不一致的reads 比对

输出:

-t/--time 输出在搜索过程中的使用的时间情况

--un 未比对上的reads 输出路径

--al 一端比对上的reads 输出路径

--un-conc 比对位置不一致的reads 输出路径

--al-conc 至少有一个位置比对一致的reads 输出路径

--un-gz , to gzip compress output, or add '-bz2' to bzip2 compress output.)

--quiet 除非有严重错误,否则不打印错误输出

--met-file 保存metrics 到文件 (off)

--met-stderr 打印metrics 大标准错误输出 (off)

--met 多少秒报告一次内部 counters 和 metrics (1)

--no-head 在SAM文件中不输出head信息

--no-sq 在SAM文件中不输出head的@SQ 信息

--rg-id 设置reads ID信息

--rg 增加reads 分组信息

--omit-sec-seq put '*' in SEQ and QUAL fields for secondary alignments.

性能:

-o/--offrate 覆盖index的offrate

-p/--threads 比对的线程数 (1)

--reorder 强制保持输出SAM文件中reads的顺序同输入的reads一致

--mm 通过内存共享index, 使得多个bowtie能共享

其他:

--qc-filter 过滤质量值低的reads

--seed 生成随机数的seed(种子) (0)

--non-deterministic 随机数生成采用种子(seed) 代替reads的属性

--remove-chrname 在比对结果中删除参考序列名称上的'chr'

--add-chrname 在比对结果中给参考序列名称加上 'chr'

--version 输出软件的版本信息

-h/--help 输出软件的使用文档

以上就是关于"HISAT2如何使用"这篇文章的内容,相信大家都有了一定的了解,希望小编分享的内容对大家有帮助,若想了解更多相关的知识内容,请关注行业资讯频道。

0