零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(二)

2023-11-05 05:04

本文主要是介绍零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(二),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(二)-关键基因集的获取和生存数据准备

前面的分析中,下载TCGA和GEO的数据,并进行简单的处理,接下来就是相关基因集的获取和整理,为后期聚类和降维做准备工作

三、获取免疫基因和代谢相关的基因集

这里可以选择从GSEA官网下载免疫和代谢相关基因,或者换成其他的基因也是可以的

1、取对数,TCGA的数据一般跨度比较大,所以在使用limma做差异之前,需要取一个log进行后续的分析(http://www.sxdyc.com/logarithmicdata)
在这里插入图片描述
运行完成后,点击下载即可
在这里插入图片描述
2、直接提取相关基因的表达谱矩阵

准备好基因集后,可以收到一个一个捕获基因的表达谱,也可以使用我们的工具

首先获取这两个基因集合并为all.gene.txt
在这里插入图片描述
使用工具,提取特定的基因集(提取部分基因表达,http://www.sxdyc.com/geneExpression)

需要上传两个文件,一个是全基因的表达谱数据,一个是基因的列表信息
在这里插入图片描述
运行完成后,直接下载数据
在这里插入图片描述
在这里插入图片描述
四、TCGA数据差异分析

1、准备分组文件

接下来进行差异分析,需要准备一个分组文件,这里选择 4.特征基因表达谱的准备 文件夹中生成的dat.select.txt 的文件
在这里插入图片描述
在这里插入图片描述
从14号位置往后数两个字符,其中01为肿瘤组织,11为正常组织
在这里插入图片描述
02其实也是肿瘤组织,只是很多分析中会去掉,因为01是原发性肿瘤,保存一下(所以只保留了01和11的样本)
在这里插入图片描述
2、差异分析

这里其实有两种做法的,一种是拿免疫+代谢相关基因表达谱进行差异分析,一种是拿全部的基因做差异分析,筛选出差异基因后,在和免疫+代谢相关基因集取交集。(这里选择的是免疫+代谢相关基因表达谱进行差异分析)

http://www.sxdyc.com/diffLimmaAnalyse
在这里插入图片描述
3、差异分析的火山图的绘制

从limma差异分析中下载差异分析的结果
在这里插入图片描述
获取绘制火山图的数据,包含三列,顺序分别为基因,差异倍数,p值

在这里插入图片描述
http://www.sxdyc.com/visualsVolcano
在这里插入图片描述
在这里插入图片描述
补充一点,如果这里用全部的基因做差异,需单独使用venn图的工具取一个交集

4、差异基因表达的热图

差异基因的获取,用excel的筛选工具,对volcan0.txt进行筛选(标准:logFC选择大于1或者小于-1,FDR<0.05,当然这里的标准可以进行修改),把相关基因提取放在heatmap.gene.txt文件中
在这里插入图片描述
在这里插入图片描述
先通过工具获取差异基因的表达谱(http://www.sxdyc.com/geneExpression)
运行成功后,下载数据,并改名为heatmap.exp.txt
在这里插入图片描述
在这里插入图片描述
在使用工具绘制热图(http://www.sxdyc.com/visualsClusterHeat)
在这里插入图片描述
这里需要注意的是

行注释为:基因的分组信息,如上调,下调的分组,代谢还是免疫基因的分组等等;

列注释为:样本的分组信息,例如这个癌组织和癌旁组织

热图的颜色:从低到高的颜色

是否显示行名:这里需要显示基因名,就选yes

是否显示列名:这里需要显示样本命,就选yes

是否进行行聚类:如果需要对基因进行聚类,就选yes

是否进行列聚类:如果需要对样本进行聚类,就选yes

图片的高度和宽度设置好

提交后等待运行成功即可下载
在这里插入图片描述
在这里插入图片描述
五、TCGA和GEO差异基因获取和预后数据的整理

1、差异基因集的获取,获取TCGA和GEO数据集的共有基因

首先,需要将GEO的数据中的基因名单独复制到gse31210.gene.list.txt文件中
在这里插入图片描述
使用venn/upset图绘制工具,获取交集基因(http://www.sxdyc.com/visualsVennUpset)

准备绘制venn图的文件,如这里只要两个组
在这里插入图片描述
在这里插入图片描述
上传后,绘制venn图,这里的颜色指的是分组的颜色(工具写错了,后面会改掉),设置图片的宽度和高度,运行完成后,直接下载即可
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这时候就需要提取共有基因表达谱,包括TCGA和GEO的表达谱数据,为后面的分型和建模做准备。

2、TCGA数据集肿瘤组织生存数据的准备和表达谱矩阵的准备

提取TCGA的肿瘤组织的表达谱,在5.差异基因热图获取的group.txt和heatmap.exp.txt,打开group.txt,数据筛选,删掉N的样本,只有肿瘤组织的样本,另存为group1.txt(只保留第一列的样本名,去掉列名)。
在这里插入图片描述
在这里插入图片描述
打开生存数据TCGA.merge.cli.txt,去掉生存时间为0的样本
在这里插入图片描述
准备两列数据,第一列数据为生存时间大于0的样本,第二列为肿瘤组织的样本,用excel选择1-12位字符串,接下來复制C列的数据,选择性粘贴在C列,选择数值(这一步很重要)
在这里插入图片描述
然后把A列的数据复制在C列之下,用excel筛选共有的样本
在这里插入图片描述
开始-条件格式-突出显示单元格规则-重复值(选择C列之后)

在这里插入图片描述
将没有颜色的行删掉
在这里插入图片描述
这时候将B列的样本名复制为group1.txt的文件中。

同时将C列中重复的样本复制在生存数据中,将不存在的样本删掉TCGA.merge.cli.txt,一样的方法去掉多余的样本

在这里插入图片描述
打开heatmap.exp.txt文件,转置,如下所示,改为heatmap.exp1.txt
在这里插入图片描述
使用提取部分基因表达工具提取肿瘤组织的表达谱(http://www.sxdyc.com/geneExpression),当然也可以手动一个一个删,这样比较麻烦
在这里插入图片描述
运行完成后,直接下载,并改名为tcga.T.dat.txt

用excel打开tcga.T.dat.txt文件,然后,提取样本的1-12位字符串
在这里插入图片描述
接下來复制B列的数据,选择性粘贴在A列,选择数值(这一步很重要)

在这里插入图片描述
然后删除B列的信息,只留A列的信息即可
在这里插入图片描述
该文件保存一下即可

3、GEO数据生存时间的筛选和表达谱矩阵的获取

首先获取共有基因表达谱,准备文件(2.geo.pre\GSE31210\gse31210.dat.process.txt),6.TCGA和GEO差异基因获取和预后数据的整理中获取的(com.set.txt),使用工具(http://www.sxdyc.com/geneExpression)提取gse31210数据集表达谱
在这里插入图片描述
运行完成后,下载即可
在这里插入图片描述
下载后改名为gse31210.select.gene.txt

打开gse31210的生存数据,删掉正常组织,保留我们想要的临床信息
在这里插入图片描述
修改生存时间名字(习惯性修改为OS.time和OS),并将生存状态Ailve替换为0,dead替换为1
在这里插入图片描述
并将样本复制出现,保存在gse.sample.txt

在这里插入图片描述
打开gse31210.select.gene.txt文件,在excel转置一下,提取肿瘤组织的表达谱数据,和TCGA数据一样
在这里插入图片描述

在这里插入图片描述
运行完成后,下载并改名为gse31210.T.data.txt

接下来就是分子亚型和风险模型的构建

这篇关于零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(二)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/347596

相关文章

Python实例题之pygame开发打飞机游戏实例代码

《Python实例题之pygame开发打飞机游戏实例代码》对于python的学习者,能够写出一个飞机大战的程序代码,是不是感觉到非常的开心,:本文主要介绍Python实例题之pygame开发打飞机... 目录题目pygame-aircraft-game使用 Pygame 开发的打飞机游戏脚本代码解释初始化部

Java中Map.Entry()含义及方法使用代码

《Java中Map.Entry()含义及方法使用代码》:本文主要介绍Java中Map.Entry()含义及方法使用的相关资料,Map.Entry是Java中Map的静态内部接口,用于表示键值对,其... 目录前言 Map.Entry作用核心方法常见使用场景1. 遍历 Map 的所有键值对2. 直接修改 Ma

深入解析 Java Future 类及代码示例

《深入解析JavaFuture类及代码示例》JavaFuture是java.util.concurrent包中用于表示异步计算结果的核心接口,下面给大家介绍JavaFuture类及实例代码,感兴... 目录一、Future 类概述二、核心工作机制代码示例执行流程2. 状态机模型3. 核心方法解析行为总结:三

python获取cmd环境变量值的实现代码

《python获取cmd环境变量值的实现代码》:本文主要介绍在Python中获取命令行(cmd)环境变量的值,可以使用标准库中的os模块,需要的朋友可以参考下... 前言全局说明在执行py过程中,总要使用到系统环境变量一、说明1.1 环境:Windows 11 家庭版 24H2 26100.4061

pandas实现数据concat拼接的示例代码

《pandas实现数据concat拼接的示例代码》pandas.concat用于合并DataFrame或Series,本文主要介绍了pandas实现数据concat拼接的示例代码,具有一定的参考价值,... 目录语法示例:使用pandas.concat合并数据默认的concat:参数axis=0,join=

C#代码实现解析WTGPS和BD数据

《C#代码实现解析WTGPS和BD数据》在现代的导航与定位应用中,准确解析GPS和北斗(BD)等卫星定位数据至关重要,本文将使用C#语言实现解析WTGPS和BD数据,需要的可以了解下... 目录一、代码结构概览1. 核心解析方法2. 位置信息解析3. 经纬度转换方法4. 日期和时间戳解析5. 辅助方法二、L

Python使用Code2flow将代码转化为流程图的操作教程

《Python使用Code2flow将代码转化为流程图的操作教程》Code2flow是一款开源工具,能够将代码自动转换为流程图,该工具对于代码审查、调试和理解大型代码库非常有用,在这篇博客中,我们将深... 目录引言1nVflRA、为什么选择 Code2flow?2、安装 Code2flow3、基本功能演示

IIS 7.0 及更高版本中的 FTP 状态代码

《IIS7.0及更高版本中的FTP状态代码》本文介绍IIS7.0中的FTP状态代码,方便大家在使用iis中发现ftp的问题... 简介尝试使用 FTP 访问运行 Internet Information Services (IIS) 7.0 或更高版本的服务器上的内容时,IIS 将返回指示响应状态的数字代

MySQL 添加索引5种方式示例详解(实用sql代码)

《MySQL添加索引5种方式示例详解(实用sql代码)》在MySQL数据库中添加索引可以帮助提高查询性能,尤其是在数据量大的表中,下面给大家分享MySQL添加索引5种方式示例详解(实用sql代码),... 在mysql数据库中添加索引可以帮助提高查询性能,尤其是在数据量大的表中。索引可以在创建表时定义,也可

使用C#删除Excel表格中的重复行数据的代码详解

《使用C#删除Excel表格中的重复行数据的代码详解》重复行是指在Excel表格中完全相同的多行数据,删除这些重复行至关重要,因为它们不仅会干扰数据分析,还可能导致错误的决策和结论,所以本文给大家介绍... 目录简介使用工具C# 删除Excel工作表中的重复行语法工作原理实现代码C# 删除指定Excel单元