千家信息网

XHMM分析原理是怎样的

发表于:2024-11-21 作者:千家信息网编辑
千家信息网最后更新 2024年11月21日,今天就跟大家聊聊有关XHMM分析原理是怎样的,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。XHMM是一款利用WES数据分析CNV的软件,利用P
千家信息网最后更新 2024年11月21日XHMM分析原理是怎样的

今天就跟大家聊聊有关XHMM分析原理是怎样的,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

XHMM是一款利用WES数据分析CNV的软件,利用PCA降维来归一化外显子区的测序深度信息,然后通过隐马可夫模型来预测CNV,该软件的pipeline示意如下

可以分成4个大的步骤

1. 比对参考基因组

将测序的reads比对到参考基因组上,计算外显子区的原始测序深度。CNV预测的核心是通过测序深度和cnv的相关性来建模,所以需要保证这里的测序深度和真实DNA拷贝数的一致性,需要去除PCR重复。

官方推荐使用GATK最佳实践中的预处理流程, 同时还可以添加一个MAPQ的过滤,筛选MAPQ大于20的alignemnts,得到可以用于下游分析的bam文件。

2. 归一化测序深度

计算每个样本各个外显子的平均测序深度,得到一个exon平均测序深度的矩阵,示意如下

每一行为一个样本,每一列为一个eoxn区域,对应的值为该exon区域在样本内的平均测序深度。

在归一化之前,可以先对这个矩阵进行一个预处理,即对样本或者目标区域进行过滤。对于目标区域,去除GC含量小于0.1或者大于0.9的目标区域,去除包含10%以上的低复杂度序列的目标区域,也可以根据测序深度进行过滤,去除过低或者过高的目标区域,比如去除测序深度小于5X的目标区域;对于样本,可以根据测序深度的分布进行分析,去除离群的样本。

预处理的目的是尽量保证用于后续分析的样本在测序深度分布上的均一性,减小样本间的偏差。预处理之后就可以进行归一化,考虑到GC含量带来的PCR偏倚,芯片捕获,mapping准确率等系统误差的影响,采用PCA算法来去除系统噪声,得到归一化之后的测序深度。

效果如下图所示

左侧为原始的测序深度,右侧为归一化之后的测序深度,每条线代表一个样本的测序深度值,灰色区域表示正常的二倍体,绿色区域表示拷贝数增加,归一化之后二者区分的更加显著。

3. 构建隐马可夫模型

将CNV在全基因组范围内分布的比例,长度,exon之间的距离等因素都考虑进来,构建了隐马可夫模型, 将染色体区域分为以下3种类型

  1. diploid

  2. deletion

  3. duplication


第一种代表拷贝数正常,为2拷贝,对应的测序深度为平均值,即baseline, 第二种代表缺失,小于2拷贝,测序深度低于平均值,第三种代表重复,大于2拷贝,测序深度高于平均值。

隐马可夫模型中3种状态之间的转移概率矩阵如下所示

4. CNV calling

模型训练好之后,对于每个样本,通过维特比算法来分析染色体区域的拷贝数状态,从而检测CNV。

看完上述内容,你们对XHMM分析原理是怎样的有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注行业资讯频道,感谢大家的支持。

深度 区域 样本 分析 拷贝 目标 模型 代表 马可 预处理 内容 基因 基因组 平均值 矩阵 原理 原始 之间 含量 染色体 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 怎么在服务器上创建共享盘 数字人民币app 软件开发 苏州大学数据库建设 中国式家长如何解决网络安全 access 数据库编程 深圳市迅雷网络技术公司 网络安全监测机制 新进网络技术成都有限公司 水务行业网络安全解决方案厂家 临沂智能养老软件开发专业制作 甘肃大学网络安全宣传 微信云托管操作云开发数据库 浪潮服务器清空管理用户 为什么云服务器安全 济南学软件开发学费多少钱 QQ会不会关闭服务器 计算机网络技术教师资格面试 p2p软件开发有哪些公司吗 有关网络安全的征文稿 automation服务器不能创建对象 福建服务器机房价格实惠 淮安网络安全陈斌 以网络安全为主题获奖手抄报 手游服务器引擎 网页内容是存储在数据库表中吗 中科曙光为多行业定制服务器 发现地球是万方数据库 服务器管理器怎么配置服务器 漯河市天气预报软件开发 网络技术开发的重要性
0