导航：首页 > 开发技术 >

怎么进行GWAS模型分析

发表于：2024-11-17 作者：千家信息网编辑

千家信息网最后更新 2024年11月17日，怎么进行GWAS模型分析，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。GWAS模型介绍全基因组关联分析（Genome w

千家信息网最后更新 2024年11月17日怎么进行GWAS模型分析

怎么进行GWAS模型分析，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。

GWAS模型介绍

全基因组关联分析（Genome wide association study，GWAS）是对多个个体在全基因组范围的遗传变异（标记）多态性进行检测，获得基因型，进而将基因型与可观测的性状，即表型，进行群体水平的统计学分析，根据统计量或显著性 p 值筛选出最有可能影响该性状的遗传变异（标记），挖掘与性状变异相关的基因。
GWAS是传统双亲种群绘图的替代方法，目前广泛用于植物、动物、模式物种和人类，与传统的QTL定位相比，GWAS优点包括更高的分辨率、研究材料来源广泛，可捕获的变异丰富，无需构建遗传群体节省时间。

GWAS是传统双亲种群绘图的替代方法，目前广泛用于植物、动物、模式物种和人类，与传统的QTL定位相比，GWAS优点包括更高的分辨率、研究材料来源广泛，可捕获的变异丰富，无需构建遗传群体节省时间。

GWAS分析模型介绍

GWAS 分析一般会构建回归模型检验标记与表型之间是否存在关联。GWAS中的零假设（H0 null hypothesis）是标记的回归系数为零, 标记对表型没有影响。备择假设(H1，也叫对立假设，Alternative Hypothesis)是标记的回归系数不为零，SNP和表型相关。GWAS中的模型主要分为两种：

一般线性模型GLM(General Linear Model)：y = Xα + Zβ + e混合线性模型MLM(Mixed Linear Model)：y = Xα+ Zβ + Wμ+ ey: 所要研究的表型性状；Xα：固定效应（Fixed Effect），影响y的其他因素，主要指群体结构；Zβ：标记效应（Marker Effect  SNP）；Wμ：随机效应（RandomEffect），这里一般指个体的亲缘关系。e: 残差

GWAS分析一直需要解决两个问题，一个是随着测序数据量的不断增加，计算速度已经是影响GWAS分析的一个重要问题。二是统计的准确率能不能再增加一些。因此发展出了很多其他的模型，请看下面的图形，图中的河流代表GWAS分析方法的不断发展，从由上角的Q模型到最下面的Blink，GWAS分析方法经历了几代人的努力。

GWAS模型详细介绍：

一般线性模型GLM：直接将基因型x和表型y做回归拟合。也可以加入群体结果控制假阳性。

混合线性模型MLM：GLM模型中，如果两个表型差异很大，但群体本身还含有其他的遗传差异（如地域等），则那些与该表型无关的遗传差异也会影响到相关性。MLM模型可以把群体结构的影响设为协方差，把这种位点校正掉。此外，材料间的公共祖先关系也会导致非连锁相关，可加入亲缘关系矩阵作为随机效应来矫正。

随着二代测序技术的发展，基因分型变得越来越容易，用于关联分析的样本量和标记数不断增大，原始的MLM模型求解所耗的时间可以用mpn3来表示(m为标记数目，p为求解过程的迭代次数，n为样本数)，可见，随着样本量的增加，每迭代一步，计算时间都会以样本3次方增长，这使得计算的时间变得非常长。为解决这一问题，Zhang等提出了P3D(population parameters previously determined)和压缩混合线性模型(compressed MLM, CMLM)，并将这两种方法整合到TASSEL软件中，大大提高了计算效率，检测功效也得到提高。P3D减少了重复计算方差组分的次数；CMLM通过聚类减少了实际参与计算的样本数。考虑到8种聚类方法和3种组间亲缘关系算法的组合可能得到不同的结果，检测最优组合的优化压缩混合线性模型(enriched CMLM, ECMLM)被提出，并整合在GAPIT软件中。

CMLM压缩混合线性模型：MLM的矫正过于严格，会把一些真实相关的SNP标记也过滤掉，因此CMLM模型目的是重新检测到那些假阴性SNP标记。

SUPER：CMLM应该选择哪些SNP来计算亲缘关系矩阵，答案是使用所有跟表型相关的SNP（且排除了检测到的那个SNP）来构建亲缘关系矩阵的效果最好，这就是SUPER(Settlement of Kinship Under Progressively Exclusive Relationship, 逐步排他性亲缘关系解决方案)。

FarmCPU：GWAS的瓶颈一是计算速度，二是统计准确性。FarmCPU能提升速度和准确性，首先把随机效应的亲缘关系矩阵（Kinship）转换为固定效应的关联SNP矩阵（S矩阵/QTNs矩阵），使计算速度大大加快；再利用QTN矩阵当做协变量，重新做关联分析，提升准确率。Blink：Blink是进阶版FarmCPU，也是为提高速度和准确率。先用上方的GLM模型获得QTNs，然后用右侧的GLM以QTNs当做协变量进行SNP检测，得到的SNP根据LD信息确定QTNs的信息（根据染色体实际位置来选择对应的bin大小），进而利用左侧的GLM以BIC（Bayesianinformation criterion）策略进行QTNs准确性检测，排除假设错误的部分，保留真实的QTNs，不断循环这一过程，直到检测到所有关联SNP（即QTNs）。

其他模型：
Kang等通过减少需要估计的方差组分的个数和简化矩阵逆运算的过程，提出了EMMA模型，在此基础上，通过避免重复估计多基因方差和误差方差，提出了EMMAX算法，并开发了EMMAX软件，进一步提高了计算速度，但由于多基因方差和误差方差的比值固定，EMMA和EMMAX都属于近似算法，而Zhou等提出的GEMMA算法为EMMA的精确算法。

看完上述内容是否对您有帮助呢？如果还想对相关知识有进一步的了解或阅读更多相关文章，请关注行业资讯频道，感谢您对的支持。

很赞哦！