ncbi-genome-download批量下载基因组数据

2023-10-11 17:36

本文主要是介绍ncbi-genome-download批量下载基因组数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. ncbi-genome-download 的下载和安装

ncbi-genome-download 是一个可以直接从NCBI上批量下载序列的软件,支持下载多种格式

利用 conda 对其直接安装 参考

#创建环境
conda create -n ncbi_genome_download
#激活环境
conda activate ncbi_genome_download
# 安装
conda install -c bioconda ncbi-genome-download

2.常用的参数

  • -s:选择数据库(genbank,refseq),默认是refseq数据库
  • -F:需要下载基因组的格式,可以多种格式同时下载,用逗号隔开,默认是genbank格式
  • -l:序列组装程度,可以多种格式同时下载,用逗号隔开
  • -g:需要下载序列的属,后面要指定类群,比如bacteria
  • S:下载的具体的菌种名称,用逗号隔开,也可以写入一个文件中,一行一个菌种名称
  • -o:输出的文件名称
  • -r:失败时重新连接的次数,默认是0次
  • --flat-output:将下载的文件输入到一个目录中,不创建新的子文件(即下载的数据在指定的文件夹中,每个 Taxonomy ID 一个压缩文件)

3. 批量下载基因组数据

3.1 根据属名下载

将需要下载的属名放置至一个txt文档(换行),利用参数--genera  pant_download.txt  plant

3.2 根据物种的 ID下载

将需要下载的物种的分类 ID 放置至一个txt文档(换行),利用参数--taxids my_taxids.txt 

再加上参数 --assembly-levels 指定下载的基因组的不同类型(包括contig,scaffold,chromosome,all,compete)

不同物种的 taxonomy id查询地址 taxonomy id query

例如 Oryza sativa 的 taxonomy id为4530

3.3 根据物种拉丁名下载

当你有一系列菌种需要下载时,你可以将这一系列菌种名保存到一个txt文件里,每个菌种名为一行,文件名为genera.txt

希望下载这些菌种基因组中的cds序列,并将下载的每个文件放在MyGenera文件夹中,在MyGenera目录下进入终端,运行:

ncbi-genome-download --genera genera.txt bacteria --flat-output --formats cds-fasta

然后,每个物种均会自动下载好指定的基因组类型序列

这样genera文本中的所有菌种的基因组cds序列就一条代码下载完成了。

注意:genera.txt文本中有10个菌种名,而下载了13个文件,说明有的菌种名下面有来自不同上传者提供的基因组信息(即一对多)

如下图,我要下载GCAlist.txt文本中的基因组序列的fasta文件,并保存在Assembly文件夹中,在Assembly目录下进入终端,运行:

ncbi-genome-download --assembly-accessions GCAlist.txt bacteria --section genbank --for

4.帮助查询

查询地址 帮助文档

  • 查看版本
ncbi-genome-download -V
  • 查看帮助
ncbi-genome-download -h
  • 语法格式
ncbi-genome-download [optional arguments] groups

optional arguments为可选参数,详细介绍见下文

groups为物种选择,可选['all', 'archaea', 'bacteria', 'fungi', 'invertebrate', 'metagenomes', 'plant', 'protozoa', 'vertebrate_mammalian', 'vertebrate_other', 'viral'],可选项即为NCBI的FTP下载目录Index of/genomes/refseq和Index of/genomes/genbank下的内容

  • 可选参数
--section

指定下载的数据库,可选['refseq', 'genbank'],默认refseq

--formats

指定下载的文件格式,可选['genbank', 'fasta', 'rm', 'features', 'gff', 'protein-fasta', 'genpept', 'wgs', 'cds-fasta', 'rna-fna', 'rna-fasta', 'assembly-report', 'assembly-stats', 'all'],默认genbank

--assembly-levels

指定下载的基因组组装水平,可选['all', 'complete', 'chromosome', 'scaffold', 'contig'],默认all

--genera

根据菌种名下载,后面可接想要下载的菌种名,如--genera 'Rhizobium alamii'

--taxids

根据NCBI taxonomy ID下载,后面可接想要下载的菌种的taxonomy ID,如--taxids '492774'

(还以Rhizobium alamii举例,通过NCBI Taxonomy Browser可以查询到该菌种的txid为492774)

--assembly-accessions

根据assembly accession下载,后面可接想要下载的菌种的assembly accession,如--assembly-accessions ‘GCF_000799895.1’

⚠️注意:因为默认下载的数据库是refseq,所以选择RefSeq assembly accession下载时无需加--section参数即可正常下载,如果要根据GenBank assembly accession下载,请再加上--section genbank。

--output-folder

指定下载目录,后面可接你想要存放的下载目录,如--output-folder ~/Downloads(下载到当前用户的下载文件夹中)

--flat-output

直接将下载的文件放入指定文件夹中,不创建子文件夹

详情参考 ncbi-genome-download工具

5. 核查下载情况

由于利用ncbi-genome-download下载物种的基因组数据时存在未成功下载(后续需自己手动下载)的情况,所有需要将当前目录下的a.genomic.fna.gz文件进行汇总

5.1 利用grep命令查找

随后将sequence_name.txt文件导入excel表中,与自己需要下载的物种进行vlookup函数匹配,找出未成功下载的基因组序列的物种名

grep ".*genomic.fna.gz” ./present dictionary > sequence_name.txt

5.2 将.txt文件转换成.bat文件

另一种方法,比较简单实用:

这篇关于ncbi-genome-download批量下载基因组数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/189701

相关文章

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

pandas实现数据concat拼接的示例代码

《pandas实现数据concat拼接的示例代码》pandas.concat用于合并DataFrame或Series,本文主要介绍了pandas实现数据concat拼接的示例代码,具有一定的参考价值,... 目录语法示例:使用pandas.concat合并数据默认的concat:参数axis=0,join=

C#代码实现解析WTGPS和BD数据

《C#代码实现解析WTGPS和BD数据》在现代的导航与定位应用中,准确解析GPS和北斗(BD)等卫星定位数据至关重要,本文将使用C#语言实现解析WTGPS和BD数据,需要的可以了解下... 目录一、代码结构概览1. 核心解析方法2. 位置信息解析3. 经纬度转换方法4. 日期和时间戳解析5. 辅助方法二、L

使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)

《使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)》字体设计和矢量图形处理是编程中一个有趣且实用的领域,通过Python的matplotlib库,我们可以轻松将字体轮廓... 目录背景知识字体轮廓的表示实现步骤1. 安装依赖库2. 准备数据3. 解析路径指令4. 绘制图形关键

Java如何从Redis中批量读取数据

《Java如何从Redis中批量读取数据》:本文主要介绍Java如何从Redis中批量读取数据的情况,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一.背景概述二.分析与实现三.发现问题与屡次改进3.1.QPS过高而且波动很大3.2.程序中断,抛异常3.3.内存消

解决mysql插入数据锁等待超时报错:Lock wait timeout exceeded;try restarting transaction

《解决mysql插入数据锁等待超时报错:Lockwaittimeoutexceeded;tryrestartingtransaction》:本文主要介绍解决mysql插入数据锁等待超时报... 目录报错信息解决办法1、数据库中执行如下sql2、再到 INNODB_TRX 事务表中查看总结报错信息Lock

使用C#删除Excel表格中的重复行数据的代码详解

《使用C#删除Excel表格中的重复行数据的代码详解》重复行是指在Excel表格中完全相同的多行数据,删除这些重复行至关重要,因为它们不仅会干扰数据分析,还可能导致错误的决策和结论,所以本文给大家介绍... 目录简介使用工具C# 删除Excel工作表中的重复行语法工作原理实现代码C# 删除指定Excel单元

Linux lvm实例之如何创建一个专用于MySQL数据存储的LVM卷组

《Linuxlvm实例之如何创建一个专用于MySQL数据存储的LVM卷组》:本文主要介绍使用Linux创建一个专用于MySQL数据存储的LVM卷组的实例,具有很好的参考价值,希望对大家有所帮助,... 目录在Centos 7上创建卷China编程组并配置mysql数据目录1. 检查现有磁盘2. 创建物理卷3. 创

Nacos日志与Raft的数据清理指南

《Nacos日志与Raft的数据清理指南》随着运行时间的增长,Nacos的日志文件(logs/)和Raft持久化数据(data/protocol/raft/)可能会占用大量磁盘空间,影响系统稳定性,本... 目录引言1. Nacos 日志文件(logs/ 目录)清理1.1 日志文件的作用1.2 是否可以删除