R语言Python GEO DataSets多个Series进行差异基因表达分析以及导入Excel到R的问题

本文主要是介绍R语言Python GEO DataSets多个Series进行差异基因表达分析以及导入Excel到R的问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

引入

GEO DataSets上,某些Series是由多个series组成的,比如GSE6834,由六个Series组成:

This SuperSeries is composed of the following SubSeries:
Less… Less…
GSE6771 Temporal Cortex Control (mesial temporal lobe epilepsy control)
GSE6773 Temporal neocortex mesial temporal lobe epilepsy
GSE6774 Temporal Cortex Control (Alzheimer’s disease control)
GSE6774 Temporal Cortex Alzheimer’s Disease
GSE6777 Cerebellum Alzheimer’s Disease
GSE6778 Cerebellum Control (Alzheimer’s disease control)

每个Series又包括10个GSM,要知道一般都是实验组对照组在同一个矩阵中才能进行差异表达分析。那么举个例子,GSE6774和GSE6774,一个对照一个实验,两个矩阵怎么分析呢?

txt转为xlsx

很多人第一反应可能是将两个TXT合二为一,这样做可以,尤其是多个Series,这样还可以利用批处理减轻工作量,但是中间涉及到对齐、插入制表符等问题,很可能出错。不如借助Excel,直接在Excel中复制粘贴即可完成(Series比较少的话)。首先将txt转为xlsx,利用Java或者Python等脚本都可以完成,下面给出Python版的:

# coding=utf-8
import xlsxwriter
import pandas as pdworkbook = xlsxwriter.Workbook(r'D:\Alzheimer\Series\GSE6834\6780.xlsx') 
worksheet= workbook.add_worksheet(u'matrix')
txt=open(r'D:\Alzheimer\Series\GSE6834\6778.txt')m=0
n=0for m in range(1,8690):print(m);line=txt.readline()data=line.split('\t')for n in range(1,11):worksheet.write(m-1,n-1,data[n-1])worksheet.write(m-1,10,data[10][0:-1]) workbook.close()

注意worksheet.write(m-1,10,data[10][0:-1])这一行,由于每个数据带一个\t,但每一行最后一个还额外多一个\n,所以这一个\n要特殊处理。
转化为TXT后,直接复制粘贴便可合二为一。

在这里插入图片描述

xlsx到R中的数据框

xlsx做好了,怎么将其变成我们需要的数据框呢?
思路一:将其转化为txt,也就是再变回去。但是转化时,需要加入\t, \n等符号,也是比较麻烦,容易出错。
思路二:在R中直接用readxl包导入xlsx为数据框。乍一看貌似这个方法最简单,但是有一个问题:xlsx里的数据是文本格式,不能直接用于数据分析。否则,就会出现报错:

> fit=lmFit(exp_matrix, design)
Error in rowMeans(y$exprs, na.rm = TRUE) : 'x' must be numeric

要想批量将Excel中文本格式的数字转化成数字格式,一般的办法是转成csv,然后再转回来。不过,既然转成csv了,不如直接用R导入就可以了。
思路三:将xlsx转成csv,然后用read.csv()导入。
导入之后观察实验矩阵:在这里插入图片描述
发现数据框第一列居然是探针名字,而不是想象中探针名字作为数据框的行名。所以我们还需要一步,修改下这个数据框。

更改数据框行名(rownames)

首先,我们需要知道更改数据框行名的函数是row.names()。这个函数的参数是向量,所以我们需要把数据框第一列转化成向量;如果直接将数据框或者矩阵作为行名会报错Error in `.rowNamesDF<-`(x, value = value) : 'row.names'的长度不对。那么,数据框怎么转化为向量呢?中间必要的一步是矩阵。所以正确的方法是连续用两个函数as.matrix()as.vector()
另外我们还需要将第一列删除,注意删除是在赋rownames之前,否则刚刚赋好的rownames也会被删除!
这一部分代码如下:

m=as.matrix(exp_matrix[, 1])
v=as.vector(m)
exp_matrix<-exp_matrix[, -1]
row.names(exp_matrix) <- v

处理后的数据框如下:在这里插入图片描述

差异表达分析

最后贴一下这个例子中,从导入到差异表达分析的全过程:

library("reshape2")
library("hgu133plus2.db")
library("limma")setwd("D:/Alzheimer/Series/GSE6834")exp_matrix<-read.csv("6774&6775.csv",header = TRUE)
m=as.matrix(exp_matrix[, 1])
v=as.vector(m)
exp_matrix<-exp_matrix[, -1]
row.names(exp_matrix) <- v#TC_Control	Temporal Cortex Control (AD)
#TC_AD Temporal Cortex Alzheimer's disease
type <-c('TC_Control','TC_Control','TC_Control','TC_Control','TC_Control','TC_Control','TC_Control','TC_Control','TC_Control','TC_Control','TC_AD','TC_AD','TC_AD','TC_AD','TC_AD','TC_AD','TC_AD','TC_AD','TC_AD','TC_AD')
design <- model.matrix(~ -1+factor(type,levels=c('TC_Control','TC_AD'),ordered=TRUE)) 
colnames(design) <- c('TC_Control','TC_AD')
rownames(design)=colnames(exp_matrix)fit=lmFit(exp_matrix, design)contrast.matrix=makeContrasts(TC_ControlVSTC_AD=TC_Control-TC_AD,levels=design) 
fit2 = contrasts.fit(fit, contrast.matrix) 
fit2 = eBayes(fit2)
results <- decideTests(fit2) 
vennDiagram(results)diff1 = topTreat(fit2, coef=1,p.value=0.05, n=Inf, adjust.method='BH')write.table(diff1, "diff.TC_ControlVSTC_AD.GSE6834.txt",sep = '\t',quote = F)

这篇关于R语言Python GEO DataSets多个Series进行差异基因表达分析以及导入Excel到R的问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/943736

相关文章

Excel 根据包含的关键词将指定列按关键词指定顺序排列

例题描述和简单分析 有 Excel 文件,数据如下所示: AB1Parent ColumnModifier (Column)2Jack lives in the villageRose3As mentioned by jackVillage4Rose already spoke to jack about last nightJack5Rose left the village6rose wa

Spring整体流程源码分析

DisableEncodeUrlFilter 防止sessionId被泄露 包装器模式 WebAsyncManagerIntegrationFilter WebAsyncManagerIntegrationFilter通常与Spring MVC的异步请求处理机制一起使用,确保在使用Callable或DeferredResult等异步处理方式时,安全上下文能够正确传播。 默认情况下,

C语言例题41、八进制转换为十进制

#include<stdio.h>void main() {int x;printf("请输入一个8进制整数:");scanf("%o", &x);printf("转换成十进制后的整数为%d\n", x);} 运行结果: 本章C语言经典例题合集:http://t.csdnimg.cn/FK0Qg

Python 上传图片到OneNet

Python 上传图片到OneNet 最近参加了中国移动创客马拉松,需要用到OneNet平台。由于要向平台上传图片,所以写了这段代码。 1、使用postman发送post请求 使用post方法,在URL栏中填写指定的URL; 在Headers中添加api-key; 在Body中选择binary(二进制数据),并指定文件1.jpg 然后点击Send,发送这段数据,得到的返回结果是一

利用KMeans进行遥感NDWI进行聚类分割

(1)解释 KMeans算法是一种非监督式的聚类算法,于1967年由J. MacQueen提出,聚类的依靠是欧式距离,其核心思想就是将样本划分为几个类别,类里面的数据与类中心的距离最小。类的标签采用类里面样本的均值。 这里利用KMeans进行遥感NDWI归一化水体指数进行简单的聚类分析,主要目的就是聚类出流域和非流域,簇类数为2。手动分割阈值为-0.06,效果和KMeans差不多,若是

深入线程:生产者与消费者问题

生产者与消费者问题无疑是线程间通信协作的经典案例。下面来看一看”生产者/消费者“的一个简单案例: 首先,我们定义一个缓冲区Buffer,这个缓冲区用来存取数据,但缓冲区大小为1,即每次只能存取一个数据。 public class Buffer {private ArrayList<Integer> list = new ArrayList<>(1); //定义一个大小为1的数组线性表,用于存

Vue Excel 文件流导出乱码快速解决方案

今日在开发一个导出功能,原本一个非常简单的功能,却没想里面藏了陷阱! 背景 前端导出的文件流乱码,此时确定非后端问题(可以在postman导出是否正常来判断)。 前端导出: 后端正常数据: 答疑 第一,如果你要做一个导出功能(后端返回的数据位文件流),那接口可能是类似的结构 红框为必不可少的参数,且与其他参数同级,如“data”,“headers”等,如果你没有,那“还没

关于WindowManager在Android N和Android N以下表现差异的分析总结

1. 问题描述 通过WindowManager往窗口里添加浮动按钮,在Android7.0时该按钮可以全局保留,直至进程被杀掉。而Android7.0以下(以Android4.4为例)浮动按钮随Activity的onStop()方法被覆盖。 以下为浮动按钮的实现代码: WindowManager mWm = (WindowManager)mContext.getSystemService(C

#Docker | Ngrok# 使用Ngrok和Docker进行内网穿透

一、注册 Ngrok官网注册,可以使用gmail或者outlook邮箱, 正常填写后你会收到一封电子邮件,点击邮件中链接即注册成功 二、获取密钥 登录,点击Your Authtoken,最上面copy左边就是你得密钥 三、使用内网穿透启动docker docker run --rm -it -e NGROK_AUTHTOKEN=<NGROK_TOEKN> ngrok/ngr

【SpringCloud Alibaba-OSS整合问题】

SpringCloud Alibaba-OSS整合问题 一、依赖版本二、整合步骤三、两种整合方式遇到的问题3.1、原来的方式3.2、现在的方式 一、依赖版本 SpringBoot版本:2.6.13 SpringCloud版本:2021.0.5 SpringCloud-Alibaba版本:2021.0.5.0 二、整合步骤 引入的依赖 <!--原来的--><d