从基因组获取fasta文件并计算Nx0脚本

2024-02-15 11:59

本文主要是介绍从基因组获取fasta文件并计算Nx0脚本,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

从基因组获取fasta文件并计算Nx0脚本

import sys
from Bio import SeqIO 
from Bio.SeqRecord import SeqRecord
from Bio.Seq import Seq
import re #正则表达式

我们先导入模块,sys将参数提取到脚本外,实现把路径跟在脚本后面直接跑即可。SeqIO是Bio里面的子包,用于序列信息提取,re为正则表达式载入。

读取文件

fn = 'sys.argv[1]'
seq_index = SeqIO.index(fn,'fasta')
chr_len = {k:len(v.seq) for k,v in seq_index.items()} # 列表推导式 迭代文章有讲 取出id并且算出序列长。

我们一般倾向于seq_index的使用保存为字典后比较好提取内容。

计算

简单信息:总长、条数、平均长度

n = len(chr_len)
total_len = sum(chr_len.values())
mean_len = total_len / n

最长序列

longest_id, longest_len = max(chr_len.items(), key=lambda x:x[1])

使用max函数求最长序列。

N50

def Nx0(l,x):'''该函数用于计算Nx0, 接受两个参数:l : 长度列表x : N50 | N60 | N70...返回两个值:idx : Nx0 的编号nx0 : Nx0 的长度'''l = sorted(l, reverse=True)p = int(x[1:]) / 100total_len = sum(l)nx0 = idx = cumsum = 0for i,v in enumerate(l, start = 1):cumsum += vif cumsum >= total_len * p:idx = inx0 = vbreak  return idx, nx0

定义函数,输入两个参数,然后输出两个参数,if的一个简单判断。

N count 和Gaps

n_count =0
gaps = 0
for k,v in seq_index.items():s= str(v.seq)                     # 正则表达式需要转换为字符串。n_count += s.count('N')gaps += len(re.split('N+',s))-1   #通过切割序列数来定义Gaps。

计算序列碱基里面的N的数量,还有Gaps的数量。

打印

fi_name = fn.split('/')[-1]
print('stats for {}'.format(fi_name))
print('sum = {}, n = {}, ave = {}, largest = {}'\.format(total_len, n, mean_len, longest_id))for n in ('N50', 'N60', 'N70', 'N80', 'N90', 'N100'):idx, nx0 = Nx0(chr_len.values(), n)print('{} = {}, n = {}'.format(n, nx0, idx))print('count ={}'.format(n_count))print('Gaps = {}'.format(gaps))

测试数据图
感觉在R语言里面,执行Python脚本感觉还是挺麻烦的,特别是我的终端特别的卡,而且终端输入文件路径时正斜线与反斜线的交叉使用让我很头疼,虽然能联动但是感觉还是挺麻烦的,不知道是我技术有限还是因为确实如此。

小结

弥补了上一个脚本不能计算Count与Gaps的问题,并且学习了新的模块,也不算模块吧,相当于新的包,提取序列的id,name,seq,还是挺方便的,大小写转化,反向互补什么的,就不需要依赖其它网站或者软件了,一行代码就搞定了,这点感觉还是挺不错的。特别是批量转换的时候,会体现出很大的优势。

没什么好聊的了,日常鸡汤:对待生命你不妨大胆冒险一点, 因为好歹你要失去它。如果这世界上真有奇迹,那只是努力的另一个名字。没有人可以拯救自己,到最后拯救你的只有你自己。绝处逢生的喜悦,大难不死的庆幸,都不是你所想象的“人品守恒”。在这个世界面前,生活是无比具体而烦琐的藤蔓,你只有从中体会到酸甜苦辣才知道它最后的余香。生命是需要奋斗的,奋斗与不奋斗,造就的结果截然不同。生无所息,保持奋斗的姿态,让世界变得如此灿烂,让你的人生绚烂多姿。千万不能满足小溪的平缓,否则你也就满足了自己的平庸,只有欣赏到山峰的险峻,才有机会欣赏自己。

这篇关于从基因组获取fasta文件并计算Nx0脚本的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/711339

相关文章

Python文本相似度计算的方法大全

《Python文本相似度计算的方法大全》文本相似度是指两个文本在内容、结构或语义上的相近程度,通常用0到1之间的数值表示,0表示完全不同,1表示完全相同,本文将深入解析多种文本相似度计算方法,帮助您选... 目录前言什么是文本相似度?1. Levenshtein 距离(编辑距离)核心公式实现示例2. Jac

Java调用Python脚本实现HelloWorld的示例详解

《Java调用Python脚本实现HelloWorld的示例详解》作为程序员,我们经常会遇到需要在Java项目中调用Python脚本的场景,下面我们来看看如何从基础到进阶,一步步实现Java与Pyth... 目录一、环境准备二、基础调用:使用 Runtime.exec()2.1 实现步骤2.2 代码解析三、

Python脚本轻松实现检测麦克风功能

《Python脚本轻松实现检测麦克风功能》在进行音频处理或开发需要使用麦克风的应用程序时,确保麦克风功能正常是非常重要的,本文将介绍一个简单的Python脚本,能够帮助我们检测本地麦克风的功能,需要的... 目录轻松检测麦克风功能脚本介绍一、python环境准备二、代码解析三、使用方法四、知识扩展轻松检测麦

Python中经纬度距离计算的实现方式

《Python中经纬度距离计算的实现方式》文章介绍Python中计算经纬度距离的方法及中国加密坐标系转换工具,主要方法包括geopy(Vincenty/Karney)、Haversine、pyproj... 目录一、基本方法1. 使用geopy库(推荐)2. 手动实现 Haversine 公式3. 使用py

基于Python Playwright进行前端性能测试的脚本实现

《基于PythonPlaywright进行前端性能测试的脚本实现》在当今Web应用开发中,性能优化是提升用户体验的关键因素之一,本文将介绍如何使用Playwright构建一个自动化性能测试工具,希望... 目录引言工具概述整体架构核心实现解析1. 浏览器初始化2. 性能数据收集3. 资源分析4. 关键性能指

shell脚本批量导出redis key-value方式

《shell脚本批量导出rediskey-value方式》为避免keys全量扫描导致Redis卡顿,可先通过dump.rdb备份文件在本地恢复,再使用scan命令渐进导出key-value,通过CN... 目录1 背景2 详细步骤2.1 本地docker启动Redis2.2 shell批量导出脚本3 附录总

Oracle数据库定时备份脚本方式(Linux)

《Oracle数据库定时备份脚本方式(Linux)》文章介绍Oracle数据库自动备份方案,包含主机备份传输与备机解压导入流程,强调需提前全量删除原库数据避免报错,并需配置无密传输、定时任务及验证脚本... 目录说明主机脚本备机上自动导库脚本整个自动备份oracle数据库的过程(建议全程用root用户)总结

Python获取浏览器Cookies的四种方式小结

《Python获取浏览器Cookies的四种方式小结》在进行Web应用程序测试和开发时,获取浏览器Cookies是一项重要任务,本文我们介绍四种用Python获取浏览器Cookies的方式,具有一定的... 目录什么是 Cookie?1.使用Selenium库获取浏览器Cookies2.使用浏览器开发者工具

Java获取当前时间String类型和Date类型方式

《Java获取当前时间String类型和Date类型方式》:本文主要介绍Java获取当前时间String类型和Date类型方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录Java获取当前时间String和Date类型String类型和Date类型输出结果总结Java获取

linux下shell脚本启动jar包实现过程

《linux下shell脚本启动jar包实现过程》确保APP_NAME和LOG_FILE位于目录内,首次启动前需手动创建log文件夹,否则报错,此为个人经验,供参考,欢迎支持脚本之家... 目录linux下shell脚本启动jar包样例1样例2总结linux下shell脚本启动jar包样例1#!/bin