千家信息网

perl对应的gff文件格式是什么

发表于:2025-01-21 作者:千家信息网编辑
千家信息网最后更新 2025年01月21日,本文小编为大家详细介绍"perl对应的gff文件格式是什么",内容详细,步骤清晰,细节处理妥当,希望这篇"perl对应的gff文件格式是什么"文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来
千家信息网最后更新 2025年01月21日perl对应的gff文件格式是什么

本文小编为大家详细介绍"perl对应的gff文件格式是什么",内容详细,步骤清晰,细节处理妥当,希望这篇"perl对应的gff文件格式是什么"文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。

对应的gff文件是下面的格式:

1     araport11   gene    3631    5899    .   +   .   ID=gene:AT1G01010;Name=NAC001;biotype=protein_coding1    araport11   mRNA    3631    5899    .   +   .   ID=transcript:AT1G01010.1;Parent=gene:AT1G010101    araport11   five_prime_UTR  3631    3759    .   +   .   Parent=transcript:AT1G01010.11    araport11   exon    3631    3913    .   +   .   Parent=transcript:AT1G01010.1;Name=AT1G01010.1.exon1;constitutive=11    araport11   CDS 3760    3913    .   +   0   ID=CDS:AT1G01010.1;Parent=transcript:AT1G01010.1;protein_id=AT1G01010.11    araport11   exon    3996    4276    .   +   .   Parent=transcript:AT1G01010.1;Name=AT1G01010.1.exon2;constitutive=11    araport11   CDS 3996    4276    .   +   2   ID=CDS:AT1G01010.1;Parent=transcript:AT1G01010.1;protein_id=AT1G01010.11    araport11   exon    4486    4605    .   +   .   Parent=transcript:AT1G01010.1;Name=AT1G01010.1.exon3;constitutive=11    araport11   gene    6788    9130    .   -   .   ID=gene:AT1G01020;Name=ARV1;biotype=protein_coding1    araport11   mRNA    6788    8737    .   -   .   ID=transcript:AT1G01020.6;Parent=gene:AT1G01020;biotype=protein_coding1    araport11   exon    6788    7069    .   -   .   Parent=transcript:AT1G01020.6;Name=AT1G01020.2.exon8;constitutive=01    araport11   three_prime_UTR 6788    7069    .   -   .   Parent=transcript:AT1G01020.61    araport11   three_prime_UTR 7157    7314    .   -   .   Parent=transcript:AT1G01020.61    araport11   exon    7157    7450    .   -   .   Parent=transcript:AT1G01020.6;Name=AT1G01020.2.exon7;constitutive=01    araport11   CDS 7315    7450    .   -   1   ID=CDS:AT1G01020.6;Parent=transcript:AT1G01020.6;protein_id=AT1G01020.61    araport11   exon    7564    7649    .   -   .   Parent=transcript:AT1G01020.6;Name=AT1G01020.1.exon6;constitutive=1

脚本在遇到gff文件第三列为gene时,匹配gene_id,但是不同的平台和软件gene_id对应的前缀也不一样,如上图所示前缀是ID=gene:,所以脚本匹配时是:

            $a[8]=~ m/ID=gene:([^;]*);/;

如果你的gff文件第八列gene_id对应的前缀也不一样,例如如下所示:

1    araport11   gene    11649   13714   .   -   .   ID=AT1G01030;Name=NGA3;biotype=protein_coding

你就需要修改一下脚本,将匹配内容改为如下所示:

$a[8]=~ m/ID=([^;]*);/;

这样脚本才能正确匹配,提取信息。

读到这里,这篇"perl对应的gff文件格式是什么"文章已经介绍完毕,想要掌握这篇文章的知识点还需要大家自己动手实践使用过才能领会,如果想了解更多相关内容的文章,欢迎关注行业资讯频道。

0