怎么用R语言的limma方法进行芯片数据差异表达分析
发表于:2024-09-22 作者:千家信息网编辑
千家信息网最后更新 2024年09月22日,这篇文章主要介绍"怎么用R语言的limma方法进行芯片数据差异表达分析"的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇"怎么用R语言的limma方法进行芯片数据差
千家信息网最后更新 2024年09月22日怎么用R语言的limma方法进行芯片数据差异表达分析
这篇文章主要介绍"怎么用R语言的limma方法进行芯片数据差异表达分析"的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇"怎么用R语言的limma方法进行芯片数据差异表达分析"文章能帮助大家解决问题。
数据简介与设置
为了方便演示,这里选择了人的早幼粒细胞白血病细胞系NB4细胞的六个样本数据(GSE2600),分析的输入文件是下载的表达矩阵文件,而分析之前需要确保正确安装和加载limma,同时需要对工作路径进行设置。
library('limma')workdir="F:/GEO/20180520"setwd(workdir)
数据处理
1、表达矩阵
数据为六个样本,读取数据之后,大家可以利用head()简单查看数据的情况等。
> expreSet=read.csv2("GSE2600expressionMatrix.csv", header = T, row.names = 1,check.names = F)
> head(exprSet,3) GSM49939 GSM49940 GSM49941 GSM49942 GSM49943 GSM499441007_s_at 23.0 13.8 26.5 75.9 94.9 84.61053_at 1449.9 1826.7 2242.8 1508.8 1523.0 2355.5117_at 109.2 71.5 106.7 128.8 84.1 79.6
针对表达矩阵,需要查看其整体分布情况,可以利用boxplot()绘制box分布图,GEO下载的表达矩阵数据基本上都是标准化的数据,可以由箱线图的分布特点看出这些样本的数据基本分布一致(中位数、上四分位数、下四分位数等等),如下图结果:
n.sample = ncol(exprSet)cols = rainbow(n.sample)pdf(file=paste(workdir,"/","Probe_expressionDistribution.pdf",sep=""), width=24, height=18)par(cex = 0.7)if(n.sample>40) par(cex = 0.5)boxplot(exprSet,col = cols, main = "expression", las = 2)dev.off()
2、分组矩阵
确认表达矩阵之后,可以由下载保存的样本处理信息进行分组,例如此处的样本处理分组:CONTROL/INFECTED,经过整理,分组信息大致如下,并基于分组信息构建分组矩阵(design):
> group TreatmentGSM49939 CONTROLGSM49940 CONTROLGSM49941 CONTROLGSM49942 INFECTEDGSM49943 INFECTEDGSM49944 INFECTED
> design = model.matrix(~ Treatment + 0, group)> colnames(design) = levels(as.factor(c("CONTROL","INFECTED")))
> design CONTROL INFECTEDGSM49939 1 0GSM49940 1 0GSM49941 1 0GSM49942 0 1GSM49943 0 1GSM49944 0 1attr(,"assign")[1] 1 1attr(,"contrasts")attr(,"contrasts")$Treatment[1] "contr.treatment"
3、差异比较矩阵
基于分组矩阵的信息构建差异比较矩阵(cont.matrix),由差异比较矩阵显示结果可知,是进行INFECTED 与CONTROL之间的差异分析。
>cont.matrix = makeContrasts(INFECTED-CONTROL, levels=design)
> cont.matrix ContrastsLevels INFECTED - CONTROL CONTROL -1 INFECTED 1
差异表达分析
差异表达分析主要是基于lmFit()、eBayes()、topTable()完成分析过程,并提取了主要的结果(tT)。
> fit = lmFit(exprSet, design)> fit2 = contrasts.fit(fit, cont.matrix)> fit2 = eBayes(fit2, 0.01)> tT = topTable(fit2, adjust="fdr", sort.by="logFC", resort.by = "P" ,n=Inf)> tT = subset(tT, select=c("adj.P.Val","P.Value","logFC"))
> head(tT,15) adj.P.Val P.Value logFC223020_at 0.99964 2.196175e-05 746.100001555758_a_at 0.99964 6.467722e-05 -540.53333218676_s_at 0.99964 1.352768e-04 -280.86667237249_at 0.99964 2.669173e-04 -93.53333225100_at 0.99964 2.836527e-04 -124.96667217825_s_at 0.99964 2.903446e-04 -143.73333222099_s_at 0.99964 3.425427e-04 493.13333212634_at 0.99964 4.221452e-04 -166.06667211499_s_at 0.99964 4.391776e-04 -129.56667221098_x_at 0.99964 4.805746e-04 95.16667208974_x_at 0.99964 5.060448e-04 947.76667209670_at 0.99964 5.113338e-04 374.20000202088_at 0.99964 5.262646e-04 -594.40000219394_at 0.99964 5.307063e-04 -117.56667212221_x_at 0.99964 5.393084e-04 347.43333
关于"怎么用R语言的limma方法进行芯片数据差异表达分析"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识,可以关注行业资讯频道,小编每天都会为大家更新不同的知识点。
数据
矩阵
差异
分析
分组
样本
方法
信息
芯片
语言
知识
结果
处理
位数
情况
文件
细胞
行业
过程
不同
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
三级网络技术内容
应用宝版本的阴阳师有服务器吗
大海战2服务器在哪里
安装网络安全需要多少钱
企业网络安全隐患原因
网络安全与信息化的核心要素
意见反馈数据库表字段
谁是部门网络安全第一
软件开发调研报告总结
网络安全周的规定
西游梦幻五开服务器
tmp数据库文件无限增大
静安区参考网络技术服务质量保障
不需要输密码的网络安全吗
广州探途网络技术
信息网络安全专业有哪些学校
互联网营销 佳云科技
福田网络安全服务哪家好
家电网络安全公司
kegg数据库hsp
数据库中课程名用什么类型表示
重庆本地软件开发定制包括什么
现在软件开发学c 好么
安卓怎么向苹果转移数据库
海康储存服务器管理口
软件开发的最终产物就是
农行软件开发中心蔡钊
小学生开的永久服务器
软件开发工作 做什么
软件开发项目 分成