千家信息网

如何使用MISO进行可变剪切的分析

发表于:2025-02-06 作者:千家信息网编辑
千家信息网最后更新 2025年02月06日,如何使用MISO进行可变剪切的分析,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。MISO是一款经典的可变剪切分析工具,和
千家信息网最后更新 2025年02月06日如何使用MISO进行可变剪切的分析

如何使用MISO进行可变剪切的分析,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

MISO是一款经典的可变剪切分析工具,和rmats类似,该软件也支持对可变剪切事件进行定量和差异分析。

这个软件支持exon和transcript两种水平的可变剪切分析,在rmats的文章中,我们也提到了rmats是从exon水平给出的可变剪切结果,因为二代测序读长短的特点,无法有效得到转录本全长,从exon水平得到的结果更加的准确,而且阳性结果更容易通过RT-PCR验证出来,但是无法详细的探究某个基因不同isoform之间的变化;transcript水平直接给出不同isoform间的定量和差异,能有效的探究基因不同isofrm的变化情况,但是结果准确性较差。

该软件是一个python包,直接通过pip就可以安装,分析的pipeline如下

1. 对参考基因组的GFF文件建索引

对于transcript水平的分析而言,只需要提供转录本的GFF文件,可以从Ensembl等数据库下载参考基因组的gtf文件,然后自己转换成GFF3格式;对于exon水平而言,需要提供已知的可变剪切事件的GFF格式文件,示意如下

chr1  SE      gene    4772649 4775821 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-;Name=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-chr1  SE      mRNA    4772649 4775821 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-chr1  SE      mRNA    4772649 4775821 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-chr1  SE      exon    4775654 4775821 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A.up;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.Achr1  SE      exon    4774032 4774186 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A.se;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.Achr1  SE      exon    4772649 4772814 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A.dn;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.Achr1  SE      exon    4775654 4775821 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B.up;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.Bchr1  SE      exon    4772649 4772814 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B.dn;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B

第二列表示可变剪切的类型,以外显子跳跃为例,ID的格式如下

chr1:4775654:4775821:-@chr1:4774032:4774186:@chr1:4772649:4772814

包含了用@符号隔开的3个外显子,中间的exon的跳过的外显子,第一个为上游的外显子,第二个为下游的外显子,对应如下示意图中的3个exon

transcript水平的GFF文件从数据库中下载即可,而exon水平的GFF文件是需要自己先识别可变剪切的不同isoform,然后整理得到的,对于人和小鼠等常见物种,官网提供了exon水平的GFF文件,链接如下

https://miso.readthedocs.io/en/fastmiso/annotation.html

准备好GFF文件之后,就可以建立索引了,命令如下

index_gff --index ensGene.gff3 index_db

index_db为索引保存的目录。

2. 运行miso

运行miso需要第一步建好的索引以及样本对应的bam文件,该bam文件必须是经过排序处理的,而且有对应的bai索引,对于双端数据,用法如下

miso --runindex_db \algin.sorted.bam \  --output-dir out_dir \--read-len 150 \--paired-end 250 15 \--settings-filename miso_settings.txt

read-len是reads的平均长度,paired-end代表插入片段长度的平均值和方差,miso_settings.txt是配置文件,内容如下

[data]filter_results = Truemin_event_reads = 20strand = fr-unstranded[sampler]burn_in = 500lag = 10num_iters = 5000num_processors = 4

配置文件中的参数很多,就不一一解释了,每个参数的意义请参考官方文档。
通过上述方式得到的结果可以直接用于后续的差异分析,但是这个结果不利于我们查看,所以官方提供了汇总程序,用法如下

summarize_miso \--summarize-samples \raw_out/ \summary_out1
3. 样本间的差异分析

进行样本间差异分析的代码如下

compare_miso --compare-samples control case/ comparisons/

在输出目录,会生成一个后缀为bf的文件。

4. 对结果进行过滤

用法如下

filter_events \--filter  case_vs_control.miso_bf \--num-inc 1 \--num-exc 1 \--num-sum-inc-exc 10 \--delta-psi 0.20 \--bayes-factor 10 \--output-dir filter_dir
5. 可视化

用法如下

sashimi_plot \--plot-event "chr1:7778:7924:-@chr1:7096:7605:-@chr1:6717:6918:-" \index_db/ \sashimi_plot_settings.txt  \--output-dir out_dir

sashimi_plot_settings.txt是配置文件,其中设置了样本的bam文件和可变剪切的输出结果,示例如下

[data]# directory where BAM files arebam_prefix = ./test-data/bam-data/# directory where MISO output ismiso_prefix = ./test-data/miso-data/bam_files = [    "heartWT1.sorted.bam",    "heartWT2.sorted.bam",    "heartKOa.sorted.bam",    "heartKOb.sorted.bam"]miso_files = [    "heartWT1",    "heartWT2",    "heartKOa",    "heartKOb"][plotting]# Dimensions of figure to be plotted (in inches)fig_width = 7fig_height = 5# Factor to scale down introns and exons byintron_scale = 30exon_scale = 4# Whether to use a log scale or not when plottinglogged = Falsefont_size = 6# Max y-axisymax = 150# Whether to plot posterior distributions inferred by MISOshow_posteriors = True# Whether to show posterior distributions as bar summariesbar_posteriors = False# Whether to plot the number of reads in each junctionnumber_junctions = Trueresolution = .5posterior_bins = 40gene_posterior_ratio = 5# List of colors for read denisites of each samplecolors = [    "#CC0011",    "#CC0011",    "#FF8800",    "#FF8800"]# Number of mapped reads in each sample# (Used to normalize the read density for RPKM calculation)coverages = [    6830944,    14039751,    4449737,    6720151]# Bar color for Bayes factor distribution# plots (--plot-bf-dist)# Paint them bluebar_color = "b"# Bayes factors thresholds to use for --plot-bf-distbf_thresholds = [0, 1, 2, 5, 10, 20]

最终会产生如下所示的结果

这种图称之为sashimi plot , 是一种专用于可变剪切可视化的图表,上述示意图表示的是一个外显子跳跃事件在不同样本中的表达情况,左下方是GFF文件中共的exon结构,左上方是每个样本中比对上exon的reads的可视化,采用了RPKM表示,不同剪切方式用曲线链接,曲线上标记的是比对上该区域的reads数目,不同分组的样本用不同颜色表示,右侧的图片是样本中对应的可变剪切的表达量值。

从这种图中,可以直观的看到两组样本间的可变剪切表达有无差异,上图中heartWT组中的表达量高于heartKO组。

实际分析时,由于需要手动整理可变剪切isofrom对应的gff文件,所以使用的难度较大,但是其提供的可视化功能是非常值得借鉴的。

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注行业资讯频道,感谢您对的支持。

文件 剪切 可变 分析 样本 水平 结果 不同 差异 索引 基因 可视化 事件 数据 格式 软件 参考 支持 配置 有效 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 济南智能软件开发哪家好 sql新建数据库用户 阳光信息网络技术有限公司 网络安全覆盖全域视频 万方数据库怎么免费下载 达梦数据库集群架构 警察上门网络安全 优酷网络技术公司商标 网络安全日手抄报内容50字 河南调度服务器厂家云主机 莱芜中小企业oa软件开发公司 数据库生成随机整数函数 工程模型用什么软件开发 埃提耶什服务器开门任务进度 文盲驾考交规速成软件开发 软件开发数据量要求 重启服务器数据库服务器 服务器交换机检查维护 河南好的软件开发代理品牌 吸血鬼崛起服务器怎么更改 网络技术挑战 杭州.net软件开发 不朽凡人为什么服务器不一样 江西省高校网络安全技能大赛官网 江西智慧养老软件开发电话 服务器出现错误502是怎么回事 网络安全按照谁主管谁负责 暗黑2服务器 说明 华为云软件开发刘伟臣 日志系统数据库设计
0