蛋白质FASTA与药物分子SMILES数据集文本数据处理与可视化分析(一)2021SC@SDUSC

本文主要是介绍蛋白质FASTA与药物分子SMILES数据集文本数据处理与可视化分析(一)2021SC@SDUSC,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文基于davis数据集进行操作2021SC@SDUSC

首先最直接的方式是学习一下别人的项目中是如何处理数据的

在项目代码中,指定了一个ParamList的字典用键值对的方式存储配置信息

下图为所选的数据集ESOL_SMILESValue.txt的结构,每一行数据逗号左侧为分子SMILES序列,右侧为该分子对应的label在这里插入图片描述

下一步就是把刚刚的ParamList(此次已封装到opt里),将opt作为参数送入MolDatasetCreator构造方法中创建一个对应的对象,后续会使用此对象进行进一步处理,接下来看看该构造方法有关opt部分的具体实现
在这里插入图片描述

仅仅是将opt赋值给了self.opt

返回到上一层,下面随即使用maldatasetcreator调用CreateDatasets函数进行处理,接下来看实现
在这里插入图片描述

此函数开头会获取前面paramList里的DataPath键的值,也就是ESOL_SMILESValue.txt的路径,然后创建文件加载器fileloader,并对文件使用load函数,下图可以看到load函数会通过readlines读出文本文件中的所有行
在这里插入图片描述

回到上层继续下面的执行,这一步是将opt中的ExpName对应的值作为FileParserList的键,又取得了一个值赋给到parser变量
在这里插入图片描述

可以看到,最终对应到的是ESOLFileParser(),从字面上猜测,应该是由于不同实验使用的数据集结构不同,所以要采用不同的parser进行处理
在这里插入图片描述
在这里插入图片描述

此次截取了两个parser类的实现,其中包括我们的ESOLFileParser,它们都有一个叫做_parse_line的函数,对于不同的数据集有着不同实现方式
在这里插入图片描述

可以看到,对一行数据的处理,先使用re对文本进行逗号分隔,分隔结果返回一个list,将list赋值给data,再分别取下标0、1的元素赋值给SMILES和Value,最后打包为一个dict,至此完成对该数据集中一行文本数据的分隔处理
在这里插入图片描述

所有的parser都继承了这个basicFileParser,可以看到它有一个子类中没有重写的函数parse_file,作用见下图注释信息

至此,该ESOL中的数据集处理已经明确,下一篇我们会对DTA任务中基准数据集davis中的蛋白质序列进行进一步处理。

这篇关于蛋白质FASTA与药物分子SMILES数据集文本数据处理与可视化分析(一)2021SC@SDUSC的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/337180

相关文章

关于MyISAM和InnoDB对比分析

《关于MyISAM和InnoDB对比分析》:本文主要介绍关于MyISAM和InnoDB对比分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录开篇:从交通规则看存储引擎选择理解存储引擎的基本概念技术原理对比1. 事务支持:ACID的守护者2. 锁机制:并发控制的艺

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

《苹果macOS26Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色》在整体系统设计方面,macOS26采用了全新的玻璃质感视觉风格,应用于Dock栏、应用图标以及桌面小部件等多个界面... 科技媒体 MACRumors 昨日(6 月 13 日)发布博文,报道称在 macOS 26 Tahoe 中

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容:获取整页文本与指定区域内容获取页面上的所有文本内容获取

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

《MyBatisPlus中update_time字段自动填充失效的原因分析及解决方案(最新整理)》在使用MyBatisPlus时,通常我们会在数据库表中设置create_time和update... 目录前言一、问题现象二、原因分析三、总结:常见原因与解决方法对照表四、推荐写法前言在使用 MyBATis

从基础到进阶详解Pandas时间数据处理指南

《从基础到进阶详解Pandas时间数据处理指南》Pandas构建了完整的时间数据处理生态,核心由四个基础类构成,Timestamp,DatetimeIndex,Period和Timedelta,下面我... 目录1. 时间数据类型与基础操作1.1 核心时间对象体系1.2 时间数据生成技巧2. 时间索引与数据

Python主动抛出异常的各种用法和场景分析

《Python主动抛出异常的各种用法和场景分析》在Python中,我们不仅可以捕获和处理异常,还可以主动抛出异常,也就是以类的方式自定义错误的类型和提示信息,这在编程中非常有用,下面我将详细解释主动抛... 目录一、为什么要主动抛出异常?二、基本语法:raise关键字基本示例三、raise的多种用法1. 抛

使用SpringBoot整合Sharding Sphere实现数据脱敏的示例

《使用SpringBoot整合ShardingSphere实现数据脱敏的示例》ApacheShardingSphere数据脱敏模块,通过SQL拦截与改写实现敏感信息加密存储,解决手动处理繁琐及系统改... 目录痛点一:痛点二:脱敏配置Quick Start——Spring 显示配置:1.引入依赖2.创建脱敏