医学图像处理之GDC数据库

2023-11-07 14:50

本文主要是介绍医学图像处理之GDC数据库,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. 打开GDC数据库:

  • 登陆TCGA数据库GDC界面:https://portal.gdc.cancer.gov/

    TCGA GDC界面

  • 首先确保Cart中没有之前的文件记录,如果有其他文件(即文件数不为0),清空Cart。

    核对Cart已清空

  • 如果Cart文件数不为0,则点击进入Cart界面进行清空。

  • 清空Cart

2. 选择样本类型及性质:

  • 点击Repository进入数据仓库,随后点击Cases样本类型及性质的选择:

    点击Cases
  • 首先确定样本部位,以前列腺癌样本举例:

    选择样本部位

  • 选择样本来源项目,如果只分析TCGA的样本,则只选择TCGA:

    选择项目来源

  • 我们之前的一些选择,会不断缩小样本范围,所以我们发现Project选项下只有一个TCGA-PRAD,我们可不用点击,不选择表示该选项下的内容都要。
    Disease Type这里根据分析需要进行选择,这里我为了统一病理类型,进行了选择。
    Gender无特殊需要可不进行选择。
    Vital Status一般我们需要进行生存分析的话,就选择alive和dead的患者,not reported的患者表示生存资料不全,可以进行剔除。
    Age at Diagnosis以及Days to Death根据自己课题需要进行设定,一般情况下默认不设定筛选条件。

  • 更加精细的筛选

     

  • Race和Ethnicity一般情况下不设定筛选条件,并且这里的nor reported的样本过于多,我们不进行筛选了,以免丢失过多样本数。

  • 人种和族裔选择

3. 选择组学数据类型及格式:

  • 点击Files选择数据类型及格式。
  • Data Category这里用最常见的转录组数据举例,选择transcriptome profiling.
  • Data Type选择Gene Expression Quantification,代表蛋白编码基因和长链非编码基因的测序数据。miRNA基因的测序数据不包含在其中,需要选择miRNA Expression Quantification而不是Gene Expression Quantification。
  • Experimental Strategy只有一个选择,默认不选,Workflow Type根据自己需求,一般常用的是Counts数据或FPKM数据。
    *一般选到这里就不再点击其他筛选条件了,而且一般其他选项也只剩一个选项了。
  • Access表明数据权限,我们普通用户只能使用open的数据,如果出现了非开放的数据,记得这里只点击open。

    选择数据类型及格式

     

4. 下载选择好的数据:

  • 将选择好的数据加入购物车,随后点击Cart进入购物车界面。

    将选择好的数据加入购物车
  • 在Cart界面分别点击Metadata(下载注释文件)以及Download(下载数据)。Download选项提供两种数据下载途径:Manifest表示下载Manifest文件后使用gdc-client软件下载数据(gdc-client下载数据方法),这种方法适合下载大文件;Cart表示通过浏览器直接下载,该方法更方便,但是不适合下载很大的文件。
  • 数据的两种下载方式
  • 至此TCGA数据下载已完成。 

5、TCGA文件的命名规则

TCGAProject名 所有TCGA样本名均以这个开头。

02:     issue source site,组织来源编码。更多标注:https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes

0001Participant, 参与者编号。一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据:TCGA-A6-6650-01A-11R-1774-07,TCGA-A6-6650-01A-11R-A278-07TCGA-A6-6650-01B-02R-A277-07

01:     Sample关键数字,其中编号01~09表示肿瘤,10~19表示正常对照

A:       Vial, 在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; 很少数的是B

01:      Portion, 同属于一个患者组织的不同部分的顺序编号

D:         Analyte, 分析的分子类型

0182:   Plate, 在一系列96孔板中的顺序,值大表示制板越晚

07:       Center, 测序或鉴定中心编码

GDC数据库样本的命名规则

 6、通过 GDC Data Transfer Tool读取数据

①原始方法:

  • 将下载下来的压缩包进行解压缩,得到gdc-client.exe。将MANIFEST.txt文件和gdc-client.exe放在一个文件夹下
  • 在该文件目录下打开cmd命令窗口。

  • 输入gdc-client download -m MANIFEST.txt (注:-m 后加的是下载好的manifest文件,需要改成自己的文件名。还可以在后方加--latest,表示最新文件数据,下载临床数据的时候比较方便),按Enter键,开始下载。

  • gdc-client download -m MANIFEST.txt 
    #or
    gdc-client download -m MANIFEST.txt --latest
    下载页面

 ②下载数据+预处理数据:

MarvinLer/tcga_segmentation: Whole Slide Image segmentation with weakly supervised multiple instance learning on TCGA | MICCAI2020 https://arxiv.org/abs/2004.05024 (github.com)给出方法,可以对下载的数据进行预处理。

Downloading TCGA cohorts + WSI pre-processing

  1. Download the GDC Data Transfer Tool executable (not included here for license issues)
  2. Constitute any cohort on the TCGA GDC Data Portal, then download the associated manifest file, and place it in a source_folder
  3. Launch the download and pre-processing pipeline with
python -m code.data_processing.main --gdc gdc_executable_path source_folder

This script first downloads all files in the manifest file, then tiles WSI, extracts tiles of a given magnification, removes background tiles, and finally seeks to extract per-slide binary labels from their name.

这篇关于医学图像处理之GDC数据库的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/364367

相关文章

Oracle数据库定时备份脚本方式(Linux)

《Oracle数据库定时备份脚本方式(Linux)》文章介绍Oracle数据库自动备份方案,包含主机备份传输与备机解压导入流程,强调需提前全量删除原库数据避免报错,并需配置无密传输、定时任务及验证脚本... 目录说明主机脚本备机上自动导库脚本整个自动备份oracle数据库的过程(建议全程用root用户)总结

虚拟机Centos7安装MySQL数据库实践

《虚拟机Centos7安装MySQL数据库实践》用户分享在虚拟机安装MySQL的全过程及常见问题解决方案,包括处理GPG密钥、修改密码策略、配置远程访问权限及防火墙设置,最终通过关闭防火墙和停止Net... 目录安装mysql数据库下载wget命令下载MySQL安装包安装MySQL安装MySQL服务安装完成

MySQL进行数据库审计的详细步骤和示例代码

《MySQL进行数据库审计的详细步骤和示例代码》数据库审计通过触发器、内置功能及第三方工具记录和监控数据库活动,确保安全、完整与合规,Java代码实现自动化日志记录,整合分析系统提升监控效率,本文给大... 目录一、数据库审计的基本概念二、使用触发器进行数据库审计1. 创建审计表2. 创建触发器三、Java

SQL server数据库如何下载和安装

《SQLserver数据库如何下载和安装》本文指导如何下载安装SQLServer2022评估版及SSMS工具,涵盖安装配置、连接字符串设置、C#连接数据库方法和安全注意事项,如混合验证、参数化查... 目录第一步:打开官网下载对应文件第二步:程序安装配置第三部:安装工具SQL Server Manageme

C#连接SQL server数据库命令的基本步骤

《C#连接SQLserver数据库命令的基本步骤》文章讲解了连接SQLServer数据库的步骤,包括引入命名空间、构建连接字符串、使用SqlConnection和SqlCommand执行SQL操作,... 目录建议配合使用:如何下载和安装SQL server数据库-CSDN博客1. 引入必要的命名空间2.

Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式

《Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式》本文详细介绍如何使用Java通过JDBC连接MySQL数据库,包括下载驱动、配置Eclipse环境、检测数据库连接等关键步骤,... 目录一、下载驱动包二、放jar包三、检测数据库连接JavaJava 如何使用 JDBC 连接 mys

MySQL数据库中ENUM的用法是什么详解

《MySQL数据库中ENUM的用法是什么详解》ENUM是一个字符串对象,用于指定一组预定义的值,并可在创建表时使用,下面:本文主要介绍MySQL数据库中ENUM的用法是什么的相关资料,文中通过代码... 目录mysql 中 ENUM 的用法一、ENUM 的定义与语法二、ENUM 的特点三、ENUM 的用法1

Java中调用数据库存储过程的示例代码

《Java中调用数据库存储过程的示例代码》本文介绍Java通过JDBC调用数据库存储过程的方法,涵盖参数类型、执行步骤及数据库差异,需注意异常处理与资源管理,以优化性能并实现复杂业务逻辑,感兴趣的朋友... 目录一、存储过程概述二、Java调用存储过程的基本javascript步骤三、Java调用存储过程示

Go语言数据库编程GORM 的基本使用详解

《Go语言数据库编程GORM的基本使用详解》GORM是Go语言流行的ORM框架,封装database/sql,支持自动迁移、关联、事务等,提供CRUD、条件查询、钩子函数、日志等功能,简化数据库操作... 目录一、安装与初始化1. 安装 GORM 及数据库驱动2. 建立数据库连接二、定义模型结构体三、自动迁

嵌入式数据库SQLite 3配置使用讲解

《嵌入式数据库SQLite3配置使用讲解》本文强调嵌入式项目中SQLite3数据库的重要性,因其零配置、轻量级、跨平台及事务处理特性,可保障数据溯源与责任明确,详细讲解安装配置、基础语法及SQLit... 目录0、惨痛教训1、SQLite3环境配置(1)、下载安装SQLite库(2)、解压下载的文件(3)、