宏基因组学Metagenome-磷循环Pcycle功能基因分析-从分析过程到代码及结果演示-超详细保姆级流程

本文主要是介绍宏基因组学Metagenome-磷循环Pcycle功能基因分析-从分析过程到代码及结果演示-超详细保姆级流程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大背景介绍

生信分析,凡事先看论文,有了论文就有了参考,后续分析就有底了,直接上硬菜开干:

PCycDB: a comprehensive and accurate database for fast analysis of phosphorus cycling genes - PubMed

数据库及部分分析代码github库: 

GitHub - ZengJiaxiong/Phosphorus-cycling-database: This is a comprehensive database for fast and accurately analyzing the phosphorus cycling genes.

 

磷循环基因库介绍Phosphorus-cycling-database (PCyCDB):

磷循环数据库 (PCyCDB),包含 138 个基因家族和 10 个代谢过程。将同源基因添加到数据库中,以降低假阳性率。通过识别已知的模拟基因数据集和模拟细菌群落,对序列相似性搜索工具(如BLAST、USEARCH、DIAMOND)生成的比对结果进行过滤的标准(即身份、命中长度)进行了细化,以获得最佳准确性并进一步减少假阳性和假阴性。在70%的同一性和25个氨基酸的截留点下,准确率、PPV、灵敏度、特异性和NPV分别为99.76%、95.70%、99.94%、99.74%和99.99%。重要的是,编码细胞内磷代谢过程的基因被添加到PCyCDB中,这应该有助于研究人员不仅拓宽对地球化学磷循环的见解,而且扩大对微生物磷代谢的见解。

作者对数据库的介绍:

这是磷循环数据库的新版本(PCycDBv1.1)。在Lidbury博士(英国谢菲尔德大学动植物科学系)的帮助下,我们检索了许多重要的磷循环基因(PCG),包括glpQ(细胞质甘油磷酸二酯磷酸二酯酶)、glpT(甘油-3-)基因磷酸盐通透酶)、ushA(5'-核苷酸酶)、phnD_phosphite(可能的 ABC 转运蛋白亚磷酸盐结合蛋白)、ptxABC(可能的亚磷酸盐转运系统)、htxB(推定的特异性次磷酸盐转运蛋白)、ptxD(NAD:亚磷酸盐氧化还原酶/亚磷酸盐脱氢酶)、htxA (次磷酸盐/2-酮戊二酸双加氧酶)、pbfA(磷酸盐分解因子 A)、pafA(磷酸盐不敏感磷酸单酯酶)、aepXVW、aepP 和 aepS(三种新型 2-氨基乙基磷酸盐转运蛋白)。此外,我们还纳入了在约氏黄杆菌 DSM2064 中鉴定的两个 phoA 基因(碱性磷酸酶)(Fjoh_3187 和 Fjoh_3249)。

基因库直接下载链接,v1.1版:

https://github.com/ZengJiaxiong/Phosphorus-cycling-database/releases/download/untagged-5a0f44fdf33412c5d1d3/id2genemap.txt

https://github.com/ZengJiaxiong/Phosphorus-cycling-database/releases/download/untagged-5a0f44fdf33412c5d1d3/PCycDBv1.1.faa

数据库准备

下载数据库

# 直接克隆整个仓库
git clone https://github.com/ZengJiaxiong/Phosphorus-cycling-database.git# 下载基因idmaping库
wget -c https://github.com/ZengJiaxiong/Phosphorus-cycling-database/releases/download/untagged-5a0f44fdf33412c5d1d3/id2genemap.txt
wget -c https://github.com/ZengJiaxiong/Phosphorus-cycling-database/releases/download/untagged-5a0f44fdf33412c5d1d3/PCycDBv1.1.faa### 查看id2genemap文件内容
head id2genemap.txt 
521169598	lysR	COG
260599187	lysR	COG
560158809	lysR	COG
15832950	lysR	COG
296104502	lysR	COG
455738413	lysR	COG
126640099	lysR	COG
71907275	lysR	COG
386742586	lysR	COG
197284247	lysR	COG### fasta文件内容
head PCycDBv1.1.faa 
>161934.XP_010688184.1 [description=ADE2 ontology=COG0152 source=eggNOG]
MLLQQGLLSNKPAPFFSIKSSLMYSSKFSSSVSLTSVKSNIHPFISCKTSIEAHNSSIKSENLPVHGVSEKIVGVLGGGQLGRMLCQAASELAIKIAILDPSQNCPASSLAYYHMVGSFDDSATVEEFAKRCGVLTVETEHVDVATLDKLEQQGVDCEPKASTIRIIQDKYLQKSHFSRLGIPLPKFMEIDSVESARRAGELFGYPLMIKSKRFAYDGRGNAVAKGEEDLSSAVAALGGYERGLYVEKWAPFVKELAVIVARGRDNSILCYPVVETIHKENICHIVKAPAVVPWKVRKLANDVAHKAVSSLEGAGVFAVELFLTEAGEILLNEVAPRPHNSGHHTIESCYTSQYEQHLRAVVGLPLGDPSMKTTAAIMYNILGEDEGEPGFLLAHEFMRRSLTVPGASVHWYDKSEMKRQRKMGHITIVGSSMGIVEGHLKSLLKQDKTDGAISARVGIIMGSDSDLPVMKDASRILDMFGVEHEVRIVSAHRTPEMMFTYAKSAWERGIQVIIAGAGGAAHLPGMVAALTPVPVIGVPVRGSSIDGLDSLLSIVQMPRGVPVATVAINNATNAGLLAVRMLGVGDSDLKSRMAQYLEDARDEVLVKADRLHKDGWEVYLNT
>159749.K0RBF6 [description=ADE2 ontology=COG0152 source=eggNOG]
GRAAGPDDVPRGPPAQHNDALPRRLRPTLPRDAGRRHVRRRRRGPVADRRGLAPRRVEAQGALVGVRRGDDGDRARGRRRAGGAGEGGGERPAVEQGFWRDVCGCYVSDEYDWMSCNASVLGLGLWPGGKRKTTAKPRDELRGRKQEHFAGHSIPLPPYVNLPSVQSIHDAASRFGLPLMLKSRKGAYDGRGNTVLKSTDDAAVSSALSDLGLTESDLPNDALYAEGWIDFRSEVAVMVVRSTTGETRAYPATTAIQTDSICRVVLVPARNVAPDVRERCESVAMAAVDCLGDGATGVFGVELFLVNKPGGGLDVLLNEVAPRPHNTGHYTQDACAVSQFENHLRAVCGLPLGDTGLVVGAAAMVNVLGAPSGGIEETMKGVNAAMTMPRTSVHWYGKGYRAGRKMGHINVTADSHAELDGPLSKLLAAESIDENVIPEDGRIGTNPLVGVIMGSQSDLPTMSDAVKILKEFGIPHEVDIVSAHRTPEKLMTYSRSAAGRGIQVIIAGAGGAAHLPGMVAAMTPLPVVGVPIKTSTLNGQDSLLSIVQMPRGVPVATVAIGNATNAGLLAVRSLCASRPGLRAKMEEYQLKMKEAVDANSSTLLELGCDEFLSMLPNKNKAVNV
>192875.XP_004363538.1 [description=ADE2 ontology=COG0152 source=eggNOG]
MST

这篇关于宏基因组学Metagenome-磷循环Pcycle功能基因分析-从分析过程到代码及结果演示-超详细保姆级流程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/507541

相关文章

线上Java OOM问题定位与解决方案超详细解析

《线上JavaOOM问题定位与解决方案超详细解析》OOM是JVM抛出的错误,表示内存分配失败,:本文主要介绍线上JavaOOM问题定位与解决方案的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录一、OOM问题核心认知1.1 OOM定义与技术定位1.2 OOM常见类型及技术特征二、OOM问题定位工具

基于 Cursor 开发 Spring Boot 项目详细攻略

《基于Cursor开发SpringBoot项目详细攻略》Cursor是集成GPT4、Claude3.5等LLM的VSCode类AI编程工具,支持SpringBoot项目开发全流程,涵盖环境配... 目录cursor是什么?基于 Cursor 开发 Spring Boot 项目完整指南1. 环境准备2. 创建

Python使用FastAPI实现大文件分片上传与断点续传功能

《Python使用FastAPI实现大文件分片上传与断点续传功能》大文件直传常遇到超时、网络抖动失败、失败后只能重传的问题,分片上传+断点续传可以把大文件拆成若干小块逐个上传,并在中断后从已完成分片继... 目录一、接口设计二、服务端实现(FastAPI)2.1 运行环境2.2 目录结构建议2.3 serv

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

通过Docker容器部署Python环境的全流程

《通过Docker容器部署Python环境的全流程》在现代化开发流程中,Docker因其轻量化、环境隔离和跨平台一致性的特性,已成为部署Python应用的标准工具,本文将详细演示如何通过Docker容... 目录引言一、docker与python的协同优势二、核心步骤详解三、进阶配置技巧四、生产环境最佳实践

MyBatis分页查询实战案例完整流程

《MyBatis分页查询实战案例完整流程》MyBatis是一个强大的Java持久层框架,支持自定义SQL和高级映射,本案例以员工工资信息管理为例,详细讲解如何在IDEA中使用MyBatis结合Page... 目录1. MyBATis框架简介2. 分页查询原理与应用场景2.1 分页查询的基本原理2.1.1 分

SpringBoot+RustFS 实现文件切片极速上传的实例代码

《SpringBoot+RustFS实现文件切片极速上传的实例代码》本文介绍利用SpringBoot和RustFS构建高性能文件切片上传系统,实现大文件秒传、断点续传和分片上传等功能,具有一定的参考... 目录一、为什么选择 RustFS + SpringBoot?二、环境准备与部署2.1 安装 RustF

Python实现Excel批量样式修改器(附完整代码)

《Python实现Excel批量样式修改器(附完整代码)》这篇文章主要为大家详细介绍了如何使用Python实现一个Excel批量样式修改器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录前言功能特性核心功能界面特性系统要求安装说明使用指南基本操作流程高级功能技术实现核心技术栈关键函

oracle 11g导入\导出(expdp impdp)之导入过程

《oracle11g导入导出(expdpimpdp)之导入过程》导出需使用SEC.DMP格式,无分号;建立expdir目录(E:/exp)并确保存在;导入在cmd下执行,需sys用户权限;若需修... 目录准备文件导入(impdp)1、建立directory2、导入语句 3、更改密码总结上一个环节,我们讲了

ShardingProxy读写分离之原理、配置与实践过程

《ShardingProxy读写分离之原理、配置与实践过程》ShardingProxy是ApacheShardingSphere的数据库中间件,通过三层架构实现读写分离,解决高并发场景下数据库性能瓶... 目录一、ShardingProxy技术定位与读写分离核心价值1.1 技术定位1.2 读写分离核心价值二