导航：首页 > 互联网科技 >

如何分析KEGG Genes 数据库

发表于：2024-11-22 作者：千家信息网编辑

千家信息网最后更新 2024年11月22日，这篇文章将为大家详细讲解有关如何分析KEGG Genes 数据库，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。kegg genes 数据库收录了物种的

千家信息网最后更新 2024年11月22日如何分析KEGG Genes 数据库

这篇文章将为大家详细讲解有关如何分析KEGG Genes 数据库，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。

kegg genes 数据库收录了物种的基因信息。 kegg 使用自己定义的ID 唯一区别每个基因，叫做kegg gene ID。

对于每个基因，除了给出对应的物种，染色体位置，ncbi-gene ID，DNA 序列，蛋白序列等基本信息以外，还会给出这个基因对应的KO， module, pathway 等注释信息。

其中KO 注释是核心，kegg 提供了两种工具，用于基因的KO 注释

对于单个物种的基因组，使用BlastKOALA 工具；
对于环境微生物，使用GhostKOALA 工具进行注释；

截止到2018年3月7号，所有基因的注释情况如下：

http://www.kegg.jp/kegg/docs/genes_statistics.html

基因从功能上分成了两大类，编码蛋白基因和非编码蛋白基因。从注释信息的角度，提供了KO , pathway, Enzyme 共3种kegg 的注释。

我们来想详细看下human 基因的注释情况

目前共收录了20380个蛋白编码基因，其中13226 个基因有KO 注释；19172 个非编码基因，其中 315个有KO 注释；有pathway 注释的只有 7376 个基因，而有Enzyme 酶类注释的只有3261 个基因。其中pathway 相关基因只有7376个，这个数字值得我们重点关注。

对于转录组分析而言，KEGG的富集分析是常用的功能分析手段，而20380个蛋白编码基因中，只有30%左右的基因有pathway 信息，剩下的没有pathway 相关信息的基因，在富集分析时，会被忽略掉了。所以pathway 富集分析还是有一定的局限性的。

这里我列出了人，小鼠，大鼠基因的pathway 注释情况

org	protein	pathway
hsa	20,380	7376
mmu	22,103	8197
rno	23,503	8436

总体来看，有pathway注释信息的基因比例都很低。pathway 是基于我们已有的认知来构建的，随着研究的不断深入和进行，pathway 数据库也会越来越大，也会有更多的基因有pathway 相关的信息。现阶段，由于我们对基因功能认知的局限，只能对那些有pathway 信息的基因去研究。所以在富集分析时，我们需要综合多个数据库的结果，比如 GO, Reatcome 等数据库。