如何对比vcf文件
发表于:2024-11-11 作者:千家信息网编辑
千家信息网最后更新 2024年11月11日,这篇文章将为大家详细讲解有关如何对比vcf文件,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。如果我们要比较的两个vcf文件的参考基因组版本不一致,就需要使用Cros
千家信息网最后更新 2024年11月11日如何对比vcf文件
这篇文章将为大家详细讲解有关如何对比vcf文件,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。
如果我们要比较的两个vcf文件的参考基因组版本不一致,就需要使用CrossMap等软件进行参考基因组版本转换,然后里使用 SnpSift 软件的 Concordance 命令比较它们。其中CrossMap软件依赖pyBigWig,使用conda进行安装,代码如下:
conda create -n py3 python=3.6
conda activate py3
conda install -c bioconda pyBigWig
pip3 install CrossMap
进行参考基因组版本转换的命令如下:
# 需要自行下载 hg19ToHg38.over.chain.gz 文件,以及参考基因组 Homo_sapiens_assembly38.fasta
python ~/miniconda3/envs/py3/bin/CrossMap.py \
vcf ~/data/liftover/hg19ToHg38.over.chain.gz test.snp.hg19.vcf \
~/data/Homo_sapiens_assembly38.fasta test.snp.hg38.vcf
可以把snp和indel的vcf文件都转换一下,然后拿到的转换好的文件如下:
1.3M Jul 8 05:16 test.indel.hg38.vcf
23K Jul 8 05:16 test.indel.hg38.vcf.unmap
1003K Jun 19 11:10 test.indel.vcf
13M Jul 8 05:18 test.snp.hg38.vcf
245K Jul 8 05:18 test.snp.hg38.vcf.unmap
13M Jun 19 18:29 test.snp.vcf
可以看到转换的成功率是非常高的!unmap的文件很小,因为确实参考基因组有变化,总有一下基因组片段被修改了。
但是,有意思的是,之前我们的vcf文件是严格按照基因组坐标排好序的,但是转换过后,出现了部分坐标乱序情况,如下:
这个很容易理解,因为同一个物种的不同版本参考基因组肯定是有
chr1 119955031 . G A
chr1 148483282 rs7513869 C T
chr1 144995248 rs6600697 A G
chr1 144995236 rs6600696 A C
chr1 144995050 rs1884147 C T
chr1 144995033 rs1884146 A G
也就是说,人类的参考基因组在由hg19进化到hg38的时候,不仅仅是片段的自然扩充,还包括一些以前组装顺序弄错了的片段的纠正。
这样坐标乱序的vcf文件,在很多下游分析都是不友好的,所以可以使用下面的代码进行简单过滤。
input=test.snps.VQSR.vcf
cat $input | java -jar ~/biosoft/snpEff/SnpSift.jar filter "( DP > 20 & FILTER = 'PASS' )" | \
perl -alne '{print unless $F[0] =~ /_/}' | \
awk '$1 ~ /^#/ {print $0;next} {print $0 | "sort -k1,1 -k2,2n"}' | \
grep -v '1/2' > test.filter.sort.vcf
# 检查不同染色体分布情况:
cat new.filter.sort.vcf |grep -v '^#' |cut -f 1 |sort |uniq
# 接下来就可以对干净的VCF文件进行注释啦
java -jar ~/biosoft/snpEff/snpEff.jar GRCh48.86 \
test.filter.sort.vcf > test.filter.sort.eff.vcf
关于"如何对比vcf文件"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。
文件
基因
基因组
参考
版本
坐标
片段
篇文章
软件
不同
代码
命令
情况
更多
不错
实用
干净
一致
成功
接下来
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
考试学习资源数据库
服务器包含无效的ssl证书
域名服务器怎么样
茂名抖音小程序软件开发
啥是佩奇 软件开发
网站程序上传服务器
英语词汇记忆软件开发
post重复提交数据库
公安类网络安全管理科员
杭州云象网络技术 业务电话
成都大东网络安全技术有限
php如何设置连接数据库
随州定制软件开发团队
计算机二级网络技术与软件
ipad免费vpn服务器
中国杜家军网络安全即是
数据库登录及安全性
易语言写java服务器
安卓社交软件开发代码
软件开发公司 系统规范移交
金山区品质网络技术口碑推荐
网络安全漫画图片 简笔画
4tb服务器
山西合为互联网科技有限公司
软件开发顶岗实习总结
网络安全问题出现咋
杭州云象网络技术 业务电话
服务器引导密码是多少
数据库用户密码是什么类型
链接SQL 2005数据库失败