Linux系统中已知SRR号如何从NCBI上下载SRA数据到服务器中

2023-10-19 13:59

本文主要是介绍Linux系统中已知SRR号如何从NCBI上下载SRA数据到服务器中,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

       高通量组学数据目前已经成为生物研究的重要板块,对于一些文章中出现的数据的挖掘尤其是人体数据的再利用也成为探究科学问题的重要前沿组成。通常情况下文章的高通量数据需要上传到NCBI的SRA(Sequence Read Archive)供大家下载学习,而我们也可以通过多种方法对数据进行下载再挖掘。在此介绍一种下载NCBI SRA数据的最佳方法。 

        首先,我们在下面的网址中进入SRA Toolkit下载的官网。Downloading SRA Toolkit · ncbi/sra-tools Wiki · GitHub https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit

       其次选择点击"CentOS Linux 64 bit architecture"下载Linux版本的软件压缩包。

       将压缩包下载完成以后,通过Xshell上传到服务器的指定文件夹,我个人一般喜欢建一个software的文件夹用于安装各类软件工具。

       通过“tar -zxvf ”指令对压缩包进行解压。

tar -zxvf sratoolkit.3.0.6-centos_linux64.tar.gz

       然后在PATH中加入fastq-dump命令,此时需要编辑Shell配置文件(例如bash的配置文件为~/.bashrc或~/.bash_profile),例如,在bash中使用以下命令打开~/.bashrc:

vi ~/.bashrc

       在配置文件中添加以下行,将sra-toolkit的bin目录路径加入到PATH中:

export PATH=$PATH:/home/Guo_Jian/software/sratoolkit/sratoolkit.3.0.6-centos_linux64/bin

        按“Esc”再“:wq”保存文件并关闭编辑器。然后为使修改生效,可以重新启动终端,或者在当前终端中运行以下命令:

source ~/.bashrc

       最后可以尝试在终端中运行fastq-dump命令,看看是否成功启动。如果成功,将显示fastq-dump的帮助信息。如果仍然出现问题,请再次检查PATH设置是否正确,并确保在PATH中包含了sra-toolkit的bin目录。如下所示即为安装成功,随后我们便可以开始数据的下载了。

       我们在NCBI上找到我们需要的数据的SRA Run Selector界面,点击"Accession List "获得我们所需要的下载的SRR序号List,其文件命名通用为“SRR_Acc_List .txt”:

​        可使用如下命令在后台进行批量下载:

nohup prefetch -O . $(<SRR_Acc_List.txt) &

        下载结束后,可使用如下命令进行批量解压:

for f in *.sra
do
nohup fastq-dump --split-3 $f &
done

         如此,数据下载和转换就完成了。

这篇关于Linux系统中已知SRR号如何从NCBI上下载SRA数据到服务器中的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/240250

相关文章

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

防止Linux rm命令误操作的多场景防护方案与实践

《防止Linuxrm命令误操作的多场景防护方案与实践》在Linux系统中,rm命令是删除文件和目录的高效工具,但一旦误操作,如执行rm-rf/或rm-rf/*,极易导致系统数据灾难,本文针对不同场景... 目录引言理解 rm 命令及误操作风险rm 命令基础常见误操作案例防护方案使用 rm编程 别名及安全删除

Linux下MySQL数据库定时备份脚本与Crontab配置教学

《Linux下MySQL数据库定时备份脚本与Crontab配置教学》在生产环境中,数据库是核心资产之一,定期备份数据库可以有效防止意外数据丢失,本文将分享一份MySQL定时备份脚本,并讲解如何通过cr... 目录备份脚本详解脚本功能说明授权与可执行权限使用 Crontab 定时执行编辑 Crontab添加定

使用docker搭建嵌入式Linux开发环境

《使用docker搭建嵌入式Linux开发环境》本文主要介绍了使用docker搭建嵌入式Linux开发环境,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录1、前言2、安装docker3、编写容器管理脚本4、创建容器1、前言在日常开发全志、rk等不同

MyBatis-plus处理存储json数据过程

《MyBatis-plus处理存储json数据过程》文章介绍MyBatis-Plus3.4.21处理对象与集合的差异:对象可用内置Handler配合autoResultMap,集合需自定义处理器继承F... 目录1、如果是对象2、如果需要转换的是List集合总结对象和集合分两种情况处理,目前我用的MP的版本

JWT + 拦截器实现无状态登录系统

《JWT+拦截器实现无状态登录系统》JWT(JSONWebToken)提供了一种无状态的解决方案:用户登录后,服务器返回一个Token,后续请求携带该Token即可完成身份验证,无需服务器存储会话... 目录✅ 引言 一、JWT 是什么? 二、技术选型 三、项目结构 四、核心代码实现4.1 添加依赖(pom

GSON框架下将百度天气JSON数据转JavaBean

《GSON框架下将百度天气JSON数据转JavaBean》这篇文章主要为大家详细介绍了如何在GSON框架下实现将百度天气JSON数据转JavaBean,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言一、百度天气jsON1、请求参数2、返回参数3、属性映射二、GSON属性映射实战1、类对象映

Web服务器-Nginx-高并发问题

《Web服务器-Nginx-高并发问题》Nginx通过事件驱动、I/O多路复用和异步非阻塞技术高效处理高并发,结合动静分离和限流策略,提升性能与稳定性... 目录前言一、架构1. 原生多进程架构2. 事件驱动模型3. IO多路复用4. 异步非阻塞 I/O5. Nginx高并发配置实战二、动静分离1. 职责2