千家信息网

TCGA数据下载的示例分析

发表于:2025-02-06 作者:千家信息网编辑
千家信息网最后更新 2025年02月06日,这篇文章主要介绍了TCGA数据下载的示例分析,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。TCGAbiolinks 下载 TCGA 数
千家信息网最后更新 2025年02月06日TCGA数据下载的示例分析

这篇文章主要介绍了TCGA数据下载的示例分析,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。

TCGAbiolinks 下载 TCGA 数据

下载TCGA数据的方式有很多,大致可以分成3类:

1. 采用GDC 工具去下载: 这个其实挺麻烦的,下载后的数据还要合并,不同的数据合并方式还不一样,需要些不少的代码。

2. 从Broad 研究所的Firehose 去下载整理好的数据,但是这个数据都比较陈旧。

3. 采用R包去下载: 目前一些R包,能对GDC的工具和API进行了很好的封装,简化了操作过程,而且当GDC进行了升级时,R包也会及时更新,所以这种方式下载数据是一个比较理想的方式。

#  加载需要的包library(SummarizedExperiment)library(TCGAbiolinks)############################################################ GDC: https://portal.gdc.cancer.gov/############################################################ 设置环境参数work_dir <- "/Users/zhangqiuxue/Lab/TCGA/TCGAbiolinks" # 设置程序参数project <- "TCGA-STAD"data_category <- "Transcriptome Profiling"data_type <- "Gene Expression Quantification"workflow_type <- "HTSeq - Counts"legacy <- FALSE# 设置工作目录setwd(work_dir)# 下载基因表达量,count数格式的结果DataDirectory <- paste0(work_dir,"/GDC/",gsub("-","_",projects))FileNameData <- paste0(DataDirectory, "_","Gene_HTSeq_Counts",".rda")# 查询可以下载的数据query <- GDCquery(project = project,                  data.category = data_category,                  data.type = data_type,                   workflow.type = workflow_type,                  legacy = legacy)# 该癌症总样品数量samplesDown <- getResults(query,cols=c("cases"))cat("Total sample to down:", length(samplesDown))# TP 样品数量dataSmTP <- TCGAquery_SampleTypes(barcode = samplesDown, typesample = "TP")cat("Total TP samples to down:", length(dataSmTP))# NT 样本数量dataSmNT <- TCGAquery_SampleTypes(barcode = samplesDown,typesample = "NT")cat("Total NT samples to down:", length(dataSmNT))# 下载数据, 数据比较大,耐心等待GDCdownload(query = query,            directory = DataDirectory)# 保存结果,方便后面使用data <- GDCprepare(query = query,                        save = TRUE,                        directory =  DataDirectory,                       save.filename = FileNameData)# 表达量提取,保存到文件data_expr <- assay(data)dim(data_expr)gene_expr_file <- paste0(DataDirectory, "_","Gene_HTSeq_Counts",".txt")write.table(data_expr, file = gene_expr_file, sep="\t", row.names =T, quote = F)

除了下载数据,TCGAbiolinks 还集成了差异分析,生存分析等功能

感谢你能够认真阅读完这篇文章,希望小编分享的"TCGA数据下载的示例分析"这篇文章对大家有帮助,同时也希望大家多多支持,关注行业资讯频道,更多相关知识等着你来学习!

0