千家信息网

如何分析KEGG Genes 数据库

发表于:2024-11-22 作者:千家信息网编辑
千家信息网最后更新 2024年11月22日,这篇文章将为大家详细讲解有关如何分析KEGG Genes 数据库,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。kegg genes 数据库收录了物种的
千家信息网最后更新 2024年11月22日如何分析KEGG Genes 数据库

这篇文章将为大家详细讲解有关如何分析KEGG Genes 数据库,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。

kegg genes 数据库收录了物种的基因信息。 kegg 使用自己定义的ID 唯一区别每个基因,叫做kegg gene ID。

对于每个基因,除了给出对应的物种,染色体位置,ncbi-gene ID,DNA 序列, 蛋白序列等基本信息以外,还会给出这个基因对应的KO, module, pathway 等注释信息。

其中KO 注释是核心,kegg 提供了两种工具,用于基因的KO 注释

  1. 对于单个物种的基因组,使用BlastKOALA 工具;

  2. 对于环境微生物,使用GhostKOALA 工具进行注释;


截止到2018年3月7号,所有基因的注释情况如下:

http://www.kegg.jp/kegg/docs/genes_statistics.html

基因从功能上分成了两大类,编码蛋白基因和非编码蛋白基因。从注释信息的角度,提供了KO , pathway, Enzyme 共3种kegg 的注释。

我们来想详细看下human 基因的注释情况


目前共收录了20380个蛋白编码基因,其中13226 个基因有KO 注释;19172 个非编码基因,其中 315个有KO 注释;有pathway 注释的只有 7376 个基因,而有Enzyme 酶类注释的只有3261 个基因。其中pathway 相关基因只有7376个,这个数字值得我们重点关注。

对于转录组分析而言,KEGG的富集分析是常用的功能分析手段,而20380个蛋白编码基因中,只有30%左右的基因有pathway 信息,剩下的没有pathway 相关信息的基因,在富集分析时 ,会被忽略掉了。所以pathway 富集分析还是有一定的局限性的。

这里我列出了人,小鼠,大鼠基因的pathway 注释情况

orgproteinpathway
hsa20,3807376
mmu22,1038197
rno23,5038436

总体来看,有pathway注释信息的基因比例都很低。pathway 是基于我们已有的认知来构建的 ,随着研究的不断深入和进行,pathway 数据库也会越来越大, 也会有更多的基因有pathway 相关的信息。现阶段,由于我们对基因功能认知的局限,只能对那些有pathway 信息的基因去研究。所以在富集分析时,我们需要综合多个数据库的结果, 比如 GO, Reatcome 等数据库。

  1. kegg genes 数据库收录了基因的信息,包括了编码基因和非编码基因。

  2. 对于单基因组,采用BlastKOALA 进行KO 注释;对于宏基因组,采用GhostKOALA 进行注释。

  3. 由于我们现阶段对基因功能认知的局限性,有pathway注释信息的基因比例较低,在进行功能富集分析时,建议综合多个数据库的结果。

关于如何分析KEGG Genes 数据库就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

0