发布网友 发布时间:2024-10-24 00:13
共1个回答
热心网友 时间:2天前
在科研工作中,我们常常能利用现有的开源高通量数据来达到研究目标。今天,就为大家介绍三种获取测序数据的便捷途径:GEO、TCGA和ICGC。
GEO是NCBI下属的数据库,收纳全球研究者上传的芯片和测序数据。GEO数据有五种组织形式:GPL、GSM、GSE、GDS和GEO profiles,其中GPL、GSM和GSE是原始数据,GDS和profiles则是经过筛选和整理的。GEO数据格式多样,包括SOFT、MINiML、Series Matrix files和Supplementary files等。比如GPL的annotation文件有助于芯片探针到基因名的转换,GSE则包含样本表达矩阵和平台信息。
TCGA,即癌症基因组图谱计划,提供大量癌症样本数据,如基因组、表观基因组等,对癌症研究和治疗有重大贡献。从官网下载TCGA数据,可通过网页界面或gdc-client工具,包括直接搜索下载和工具下载两种方式。
ICGC,国际肿瘤基因组协会,目标是全球协作研究,收集和分析肿瘤基因组数据。原始数据下载有限,主要在Data repository,而DCC Data releases和Cancer projects中的数据则更易获取,包括整理过的生物样本和临床信息。
无论是GEO、TCGA还是ICGC,下载数据时,选择直接链接或利用官方工具,都能帮助我们高效地获取所需信息。这些数据库的资源丰富,对科研人员的研究工作具有很大价值。