千家信息网

宏基因组binning的原理是什么

发表于:2024-11-22 作者:千家信息网编辑
千家信息网最后更新 2024年11月22日,这期内容当中小编将会给大家带来有关宏基因组binning的原理是什么,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。宏基因组 binning 也即将序列进行聚类、分装
千家信息网最后更新 2024年11月22日宏基因组binning的原理是什么

这期内容当中小编将会给大家带来有关宏基因组binning的原理是什么,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

宏基因组 binning 也即将序列进行聚类、分装,是根据基因组特征以及组装信息等将属于不同基因组的序列分离开来的过程。通过 binning 得到的 bins (更确切的说是 strain-level clusters 或 strain-leveltaxonomic units )很可能是实验室无法纯培养的未知的微生物的基因组序列,对其进行组学分析具有重要意义 [1 ]

在宏基因组中分离单基因组,可利用序列特征或序列组装信息,常见的可用信息主要有以下几种:

a.根据核酸使用频率(通常是四核苷酸频率)、GC含量和必需的单拷贝基因等基因组特征;

b.根据contig序列的覆盖度coverage信息;

c.根据测序数据的kmer丰度信息;

d.根据序列在不同样品的共出现规律(co-abundance patternsacross multiple samples);

e.将序列map到数据库的参考序列所获得的注释信息,也即物种binning。

根据所使用的序列数据不同,binning策略可分为三种:基于组装前的clean reads,基于组装后的contigs,基于注释的基因genes。

⑴基于reads binning

环境样本中微生物的丰度不同,其基因组kmer的期望深度也不同,根据kmer丰度可以直接对reads进行聚类,将属于不同基因组的reads分离开来。其优势是可以聚类出宏基因组中丰度非常低的物种,而且可以分离系统发育关系很近的物种。考虑到在宏基因组组装中reads利用率很低,单样品5Gb测序量情况下,环境样品组装reads利用率一般只有10%左右,肠道样品或极端环境样品组装reads利用率一般能达到30%,这样很多物种,尤其是低丰度的物种的reads没有被没有被组装出来,没有体现在contig中而被浪费,因此基于reads binning才有可能得到低丰度的物种基因组的的测序数据,在实际研究中基于reads binning的LSA(Latent Strain Analysis)方法可以聚类出丰度低到0.00001%的物种,并且对同一物种中的不同菌株的敏感性很强[2]

⑵基于genes binning

在宏基因组做完序列组装和基因预测之后,把所有样品中预测到的基因混合在一起,去冗余得到unique genes集合,根据gene在各个样品中的丰度变化模式,计算gene之间的相关性,利用这种相关性进行聚类。利用这种策略进行binning得到的bins可称为CAG(co-abundance genegroups),包含有700个以上的gene的CAG称为MGS(metagenomic species),CAG可用进行关联分析,MGS可用进行后续的单菌组装[3]。当然根据具体的聚类算法和相关性系数的不同,对genes binning得到的bins的叫法也不同,除以上外还有MLG(metagenomic linkage groups)、MGC(metagenomic clusters)和MetaOTUs(metagenomic operational taxonomicunits)等,同时,MLG, MGC, MGS和MetaOTUs物种注释的标准也是不一样的。

目前已发表的宏基因组关联分析(MWAS)和多组学联合分析文章中,宏基因组binning很多都用genes binning方法,尤其是疾病的MWAS研究中基本都用genes binning[4]。这种方法的优势是基于genes丰度变化模式进行binning可操作性比较强,过程比较简单,可复制性强,对计算机资源消耗比较低。

⑶基于contigs binning

在宏基因组做完序列组装之后,将所有reads序列map到contigs上获得contig覆盖率,再综合GC含量、核算组成等信息对contig进行聚类,将属于不同基因组的contig序列分开。contig binning目前应用十分广泛,最常用的就是用于组装单物种基因组,目前已经有多种基于contig binning的软件[1],对于丰度较高的物种contigs binning效果较好,但是目前也有些缺陷或者说还有很多可提升的空间,例如对核酸组成信息的利用,开发得就不够充分,四碱基使用频率因简单而被广泛使用和接受,但现在已有研究表明k-mer丰度信息也是很好的种系特征,同时越长的k-mer含有越多的信息,还有基因和参考基因组间的同源关系也是有价值的种系信号,但这些都还没有被自动化的binning软件整合。

binning 结果对于参数设置是很敏感的,但是很多 binning 软件只有有限的可调整的参数,这使得想要获得高质量的 bins 经常需要手动调整。

上述就是小编为大家分享的宏基因组binning的原理是什么了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注行业资讯频道。

0