导航：首页 > 互联网科技 >

XHMM分析原理是怎样的

发表于：2024-11-21 作者：千家信息网编辑

千家信息网最后更新 2024年11月21日，今天就跟大家聊聊有关XHMM分析原理是怎样的，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。XHMM是一款利用WES数据分析CNV的软件，利用P

千家信息网最后更新 2024年11月21日XHMM分析原理是怎样的

今天就跟大家聊聊有关XHMM分析原理是怎样的，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

XHMM是一款利用WES数据分析CNV的软件，利用PCA降维来归一化外显子区的测序深度信息，然后通过隐马可夫模型来预测CNV,该软件的pipeline示意如下

可以分成4个大的步骤

1. 比对参考基因组

将测序的reads比对到参考基因组上，计算外显子区的原始测序深度。CNV预测的核心是通过测序深度和cnv的相关性来建模，所以需要保证这里的测序深度和真实DNA拷贝数的一致性，需要去除PCR重复。

官方推荐使用GATK最佳实践中的预处理流程, 同时还可以添加一个MAPQ的过滤，筛选MAPQ大于20的alignemnts，得到可以用于下游分析的bam文件。

2. 归一化测序深度

计算每个样本各个外显子的平均测序深度，得到一个exon平均测序深度的矩阵，示意如下

每一行为一个样本，每一列为一个eoxn区域，对应的值为该exon区域在样本内的平均测序深度。

在归一化之前，可以先对这个矩阵进行一个预处理，即对样本或者目标区域进行过滤。对于目标区域，去除GC含量小于0.1或者大于0.9的目标区域，去除包含10%以上的低复杂度序列的目标区域，也可以根据测序深度进行过滤，去除过低或者过高的目标区域，比如去除测序深度小于5X的目标区域；对于样本，可以根据测序深度的分布进行分析，去除离群的样本。

预处理的目的是尽量保证用于后续分析的样本在测序深度分布上的均一性，减小样本间的偏差。预处理之后就可以进行归一化，考虑到GC含量带来的PCR偏倚，芯片捕获，mapping准确率等系统误差的影响，采用PCA算法来去除系统噪声，得到归一化之后的测序深度。

效果如下图所示

左侧为原始的测序深度，右侧为归一化之后的测序深度，每条线代表一个样本的测序深度值，灰色区域表示正常的二倍体，绿色区域表示拷贝数增加，归一化之后二者区分的更加显著。