sra数据下载linux,NCBI-SRA数据的下载方法

2024-02-25 01:40
文章标签 数据 linux 方法 下载 ncbi sra

本文主要是介绍sra数据下载linux,NCBI-SRA数据的下载方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

SRA 数据库: 为Sequence Read Archive 的缩写。主要存储高通量测序的原始数据,来自四个测序平台,分别为:Roche_LS454,Illumina,ABI_SOLID和HELICOS。从事生物信息分析的老师和同学一般都会接触SRA数据,下载SRA数据的方法也有很多,这里来简单总结一下。

一、SRA Tookit下载

6693876940a7

选择需要的SRA Tookit 版本进行下载,下载后直接解压到某个指定位置即可。然后搜索SRA数据,例如,我们要下载SRP108428(阅读文献可以找到公开数据的project号)下的所有数据,打开NCBI网址:https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP108428(此处为project号),点击"Accession List"键,下载得到SRR List 储存在sra.txt文件中。

6693876940a7

6693876940a7

sra.txt

使用SRA Tookit 的prefetch进行下载,prefetch放在sratoolkit文件夹下的bin目录。

sratoolkit-centos_linux64/bin/prefetch --option-file sra.txt

具体教程:

6693876940a7

二、迅雷下载

例如,我们要下载SRP108428(阅读文献可以找到公开数据的project号)下的所有数据,打开NCBI网址:https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP108428(此处为project号),点击"Accession List"键,下载得到SRR List 储存在sra.txt文件中。那么我们就可以通过下载地址规律生成所有样品的ftp的下载地址:

ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR563/SRR5631562/SRR5631562.sra

最后,将链接粘贴到迅雷下载即可, 是不是很方便?

6693876940a7

三、wget下载

从NCBI下载数据本来是一件很简单的事情,有时候会遇到下面情况:

(1)paper里没有提供SRA数据号、也没有提供路径;

(2)不知道文件在ftp的地址,不能直接用wget下载

所以通过在NCBI官网,直接在SRA搜索栏里:

2.1 输入paper的title关键词NIFTY BGI

6693876940a7

2.2 搜索结果

6693876940a7

点击send to

6693876940a7

image

最后得到SraRunInfo.csv文件,文件内容是各个samp sequence的列表信息,包括FTP上的下载地址:

6693876940a7

2.3 最后在linux中通过wget下载

参考wget使用说明

这篇关于sra数据下载linux,NCBI-SRA数据的下载方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/744049

相关文章

使用Python开发一个Ditto剪贴板数据导出工具

《使用Python开发一个Ditto剪贴板数据导出工具》在日常工作中,我们经常需要处理大量的剪贴板数据,下面将介绍如何使用Python的wxPython库开发一个图形化工具,实现从Ditto数据库中读... 目录前言运行结果项目需求分析技术选型核心功能实现1. Ditto数据库结构分析2. 数据库自动定位3

pandas数据的合并concat()和merge()方式

《pandas数据的合并concat()和merge()方式》Pandas中concat沿轴合并数据框(行或列),merge基于键连接(内/外/左/右),concat用于纵向或横向拼接,merge用于... 目录concat() 轴向连接合并(1) join='outer',axis=0(2)join='o

Linux线程同步/互斥过程详解

《Linux线程同步/互斥过程详解》文章讲解多线程并发访问导致竞态条件,需通过互斥锁、原子操作和条件变量实现线程安全与同步,分析死锁条件及避免方法,并介绍RAII封装技术提升资源管理效率... 目录01. 资源共享问题1.1 多线程并发访问1.2 临界区与临界资源1.3 锁的引入02. 多线程案例2.1 为

批量导入txt数据到的redis过程

《批量导入txt数据到的redis过程》用户通过将Redis命令逐行写入txt文件,利用管道模式运行客户端,成功执行批量删除以Product*匹配的Key操作,提高了数据清理效率... 目录批量导入txt数据到Redisjs把redis命令按一条 一行写到txt中管道命令运行redis客户端成功了批量删除k

Python安装Pandas库的两种方法

《Python安装Pandas库的两种方法》本文介绍了三种安装PythonPandas库的方法,通过cmd命令行安装并解决版本冲突,手动下载whl文件安装,更换国内镜像源加速下载,最后建议用pipli... 目录方法一:cmd命令行执行pip install pandas方法二:找到pandas下载库,然后

SpringBoot多环境配置数据读取方式

《SpringBoot多环境配置数据读取方式》SpringBoot通过环境隔离机制,支持properties/yaml/yml多格式配置,结合@Value、Environment和@Configura... 目录一、多环境配置的核心思路二、3种配置文件格式详解2.1 properties格式(传统格式)1.

Oracle数据库定时备份脚本方式(Linux)

《Oracle数据库定时备份脚本方式(Linux)》文章介绍Oracle数据库自动备份方案,包含主机备份传输与备机解压导入流程,强调需提前全量删除原库数据避免报错,并需配置无密传输、定时任务及验证脚本... 目录说明主机脚本备机上自动导库脚本整个自动备份oracle数据库的过程(建议全程用root用户)总结

Linux如何查看文件权限的命令

《Linux如何查看文件权限的命令》Linux中使用ls-R命令递归查看指定目录及子目录下所有文件和文件夹的权限信息,以列表形式展示权限位、所有者、组等详细内容... 目录linux China编程查看文件权限命令输出结果示例这里是查看tomcat文件夹总结Linux 查看文件权限命令ls -l 文件或文件夹

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

idea的终端(Terminal)cmd的命令换成linux的命令详解

《idea的终端(Terminal)cmd的命令换成linux的命令详解》本文介绍IDEA配置Git的步骤:安装Git、修改终端设置并重启IDEA,强调顺序,作为个人经验分享,希望提供参考并支持脚本之... 目录一编程、设置前二、前置条件三、android设置四、设置后总结一、php设置前二、前置条件