【生信笔记】Emsenbl的BioMart工具:对RNA进行多种ID批量转换

2023-10-12 13:30

本文主要是介绍【生信笔记】Emsenbl的BioMart工具:对RNA进行多种ID批量转换,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大家好我是lotusng,本期blog我跟大家分享一个RNA的ID转换方法:利用Emsenbl的BioMart工具。

众所周知(?),Emsenbl网站提供了多种物种的多种DNA与RNA的序列等信息,其实Emsenbl还有一个功能很强大的RNA 在线ID转换工具BioMart,我来安利一下~

Emsenbl的BioMart工具: http://asia.ensembl.org/biomart/martview/db73e9d48b0fb03717654a65c72012c4


文章目录

    • 0 数据输入格式与输出要求
    • 1 选择人类基因数据库
        • (1)-> Emsenbl
        • (2)-> 点BioMart
        • (3)-> 点Dataset
        • (4)-> 选择输入的基因来自什么库
    • 2 输入的ID列表
        • (1)-> 点Fliters(过滤器)
        • (2)-> 勾选Input ereferences ID list
        • (3)-> 选择输入的基因ID类别
        • (4) 文本框内输入Gene Name列表
    • 3 输出的属性选项
        • (1)-> Attributes(属性)
        • (2)-> GENE -> Ensembl 选择输出格式
        • (3)-> External References
    • 4 结果的输出及下载保存
        • (1)-> (网页左上角)点Results
        • (2)-> 下载格式选 XLS
        • (3)-> GO
    • 下面开始BioMart的技术总结
    • 附 Excel分列小技巧


0 数据输入格式与输出要求

 首先,看一下我们的例子,我们的数据是人类的miRNA的Gene name,目的是转换得到 Gene ID、Transcript ID、miRBase ID


1 选择人类基因数据库

(1)-> Emsenbl

  Emsenbl 网址:http://asia.ensembl.org/index.html

(2)-> 点BioMart
(3)-> 点Dataset
(4)-> 选择输入的基因来自什么库

 人类基因选择:选择 Ensembl Genes 92Human genes(GRCh38.p12) (注:目前最新的选项更新为Ensembl Genes 95,选它)

在这里插入图片描述


2 输入的ID列表

(1)-> 点Fliters(过滤器)
(2)-> 勾选Input ereferences ID list
(3)-> 选择输入的基因ID类别

  我们的数据是miRNA的Gene Name,如图选Gene Name(s)

(4) 文本框内输入Gene Name列表

在这里插入图片描述

  如果数据是Gene ID:ENSG12345678910这样的,选Gene stable ID(s)。以此类推。
  根据自己数据的类型,选择对应的ID格式。(注意看选项后括号里给出的例子,要和自己的数据完全对应上)
在这里插入图片描述

3 输出的属性选项

(1)-> Attributes(属性)
(2)-> GENE -> Ensembl 选择输出格式

  注意,所有要显示在结果里的输出格式都要选(包括我们输入的是Gene name格式,那么“Gene name”选择一样要选。否则,结果里不会显示输入的数据,只有一堆转换后的ID,无法输入输出一一对应)。
  所以,我们选择了Gene stable ID(输出)、Transcript stable ID(输出)、Gene name(输入)。
在这里插入图片描述

(3)-> External References

  同样还在Attributes下GENE里的子选项,下拉。在External References 中,其它的输出格式按需求选择。我们选择了miRBase ID(输出)。此处最多能选择3项。
在这里插入图片描述

4 结果的输出及下载保存

(1)-> (网页左上角)点Results

  得到结果,包括了我们的输入列Gene name,输出列 Gene stable ID、Transcript stable ID和miRBase ID。

(2)-> 下载格式选 XLS
(3)-> GO

  然后就可以下载到这个表格的xls版本啦。
在这里插入图片描述

下面开始BioMart的技术总结

  1. 流程就是以上这么个流程,步骤做一遍就清晰了。
  2. 关键是输入格式要选对,注意BioMart所给的ID例子,一定要完全对应,否则无法识别。
  3. 输出选项里,注意要把输入格式也选上,否则输入选项并不会显示在结果里。
  4. 例子里一共选了4个属性选项,所以得到4个输出列。合理运用BioMart,按需选择输入格式和输出格式,就能对多种RNA做多种ID转换了。

附 Excel分列小技巧

之前同学的同学问我怎么把带版本号的mRNA的Gene ID转换成mRNA的Gene name。
一开始他是在NCBI一个一个查,我觉得吧,可以是可以,没必要是真的没必要,这时BioMart就很好用啦。

他的原数据是这样的(第一列):


由于他的原始数据中mRNA Gene ID 是带小数的,而这个小数并不影响转换得到对应Gene name,直接把放入BioMart作为Gene stable ID又无法被识别。可以选择用excel的分列功能,批量将小数删去。(当然还有很多种删掉小数的方法,这里只是示范一种简单的方法,来让我们的数据和BioMart的要求对应上。)

操作如下:
用Excel打开数据 -> 全选我们的数据 -> 工具栏[数据] -> [分列] -> 选[分隔符号] -> [下一步]
在这里插入图片描述


-> 选[其它] -> 输入“.” -> [下一步] -> [完成]


结果如下图。



欢迎留言讨论与交流~

lotusng:
major in CS
foucs on 生信数据挖掘与算法设计

这篇关于【生信笔记】Emsenbl的BioMart工具:对RNA进行多种ID批量转换的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/196172

相关文章

基于Python实现一个图片拆分工具

《基于Python实现一个图片拆分工具》这篇文章主要为大家详细介绍了如何基于Python实现一个图片拆分工具,可以根据需要的行数和列数进行拆分,感兴趣的小伙伴可以跟随小编一起学习一下... 简单介绍先自己选择输入的图片,默认是输出到项目文件夹中,可以自己选择其他的文件夹,选择需要拆分的行数和列数,可以通过

Python中将嵌套列表扁平化的多种实现方法

《Python中将嵌套列表扁平化的多种实现方法》在Python编程中,我们常常会遇到需要将嵌套列表(即列表中包含列表)转换为一个一维的扁平列表的需求,本文将给大家介绍了多种实现这一目标的方法,需要的朋... 目录python中将嵌套列表扁平化的方法技术背景实现步骤1. 使用嵌套列表推导式2. 使用itert

C#读写文本文件的多种方式详解

《C#读写文本文件的多种方式详解》这篇文章主要为大家详细介绍了C#中各种常用的文件读写方式,包括文本文件,二进制文件、CSV文件、JSON文件等,有需要的小伙伴可以参考一下... 目录一、文本文件读写1. 使用 File 类的静态方法2. 使用 StreamReader 和 StreamWriter二、二进

Python使用pip工具实现包自动更新的多种方法

《Python使用pip工具实现包自动更新的多种方法》本文深入探讨了使用Python的pip工具实现包自动更新的各种方法和技术,我们将从基础概念开始,逐步介绍手动更新方法、自动化脚本编写、结合CI/C... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文

Linux中压缩、网络传输与系统监控工具的使用完整指南

《Linux中压缩、网络传输与系统监控工具的使用完整指南》在Linux系统管理中,压缩与传输工具是数据备份和远程协作的桥梁,而系统监控工具则是保障服务器稳定运行的眼睛,下面小编就来和大家详细介绍一下它... 目录引言一、压缩与解压:数据存储与传输的优化核心1. zip/unzip:通用压缩格式的便捷操作2.

关于集合与数组转换实现方法

《关于集合与数组转换实现方法》:本文主要介绍关于集合与数组转换实现方法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、Arrays.asList()1.1、方法作用1.2、内部实现1.3、修改元素的影响1.4、注意事项2、list.toArray()2.1、方

sqlite3 命令行工具使用指南

《sqlite3命令行工具使用指南》本文系统介绍sqlite3CLI的启动、数据库操作、元数据查询、数据导入导出及输出格式化命令,涵盖文件管理、备份恢复、性能统计等实用功能,并说明命令分类、SQL语... 目录一、启动与退出二、数据库与文件操作三、元数据查询四、数据操作与导入导出五、查询输出格式化六、实用功

Golang如何对cron进行二次封装实现指定时间执行定时任务

《Golang如何对cron进行二次封装实现指定时间执行定时任务》:本文主要介绍Golang如何对cron进行二次封装实现指定时间执行定时任务问题,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录背景cron库下载代码示例【1】结构体定义【2】定时任务开启【3】使用示例【4】控制台输出总结背景

利用Python脚本实现批量将图片转换为WebP格式

《利用Python脚本实现批量将图片转换为WebP格式》Python语言的简洁语法和库支持使其成为图像处理的理想选择,本文将介绍如何利用Python实现批量将图片转换为WebP格式的脚本,WebP作为... 目录简介1. python在图像处理中的应用2. WebP格式的原理和优势2.1 WebP格式与传统