python读取列数不规则文件/python数据框分割

2023-10-31 09:12

本文主要是介绍python读取列数不规则文件/python数据框分割,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

问题

将探空数据读取,并按每日单纯储存,数据如下:
在这里插入图片描述
为一年数据,存在部分列的数据缺失问题。

数据读取

使用read_csv文件读取文件,由于列数存在不一致问题,需要固定最大列数:

names=["date","id","alt","lat","lon","p","t","rh","ff","dd"]
data=pd.read_csv(r'F:/Sonde2015/NYA_UAS_2015.tab',header=None,sep='\\s+',skiprows=25,names=names)

此时,data为一个134355×10的dataframe,缺失部分为nan自动补齐。

添加时间戳标签

为了便于数据框的分割提取,我们考虑添加标签,即提取对应的日期,并将其转为时间戳标签,此后,根据标签便可分割dataframe。
首先提取数据里的日期信息,用到了正则匹配:

def extract_date(text):pattern = r'\d{4}-\d{2}-\d{2}'match = re.search(pattern, text)if match:return match.group()else:return None
obsdt=data.iloc[:,0]
date={}
for i in range(0,len(obsdt)):t=extract_date(str(obsdt[i]))date[i]=datetime.strptime(t, '%Y-%m-%d')

构建并添加时间戳标签:

date=pd.Series(date)
date=date.tolist()
data.insert(0, 'dt', None)
data['dt']=data['dt'].astype('datetime64[ns]')
data['dt']=date
data=data.set_index('dt')#将date作为标签
data.index=pd.DatetimeIndex(data.index)#将标签转为时间索引
data.axes#查看

切割dataframe

使用groupby切割,此时,dataframe的标签为时间戳日期,同一标签日期的便会被提取:

DFList = [group[1] for group in data.groupby(data.index)]

此时DFList为列表,元素为分割的子数据框。

输出

将切割的dataframe直接输出即可:

for i in range(0,len(DFList)):d=DFList[i]fname=d.index[0]fname=str(fname)fname=fname[0:10]csvname=fname+'.dat'd.to_csv(csvname,sep=' ',index=False,header=True)

在这里插入图片描述
在这里插入图片描述

这篇关于python读取列数不规则文件/python数据框分割的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/314309

相关文章

Mysql数据库中数据的操作CRUD详解

《Mysql数据库中数据的操作CRUD详解》:本文主要介绍Mysql数据库中数据的操作(CRUD),详细描述对Mysql数据库中数据的操作(CRUD),包括插入、修改、删除数据,还有查询数据,包括... 目录一、插入数据(insert)1.插入数据的语法2.注意事项二、修改数据(update)1.语法2.有

Python logging模块使用示例详解

《Pythonlogging模块使用示例详解》Python的logging模块是一个灵活且强大的日志记录工具,广泛应用于应用程序的调试、运行监控和问题排查,下面给大家介绍Pythonlogging模... 目录一、为什么使用 logging 模块?二、核心组件三、日志级别四、基本使用步骤五、快速配置(bas

Python日期和时间完全指南与实战

《Python日期和时间完全指南与实战》在软件开发领域,‌日期时间处理‌是贯穿系统设计全生命周期的重要基础能力,本文将深入解析Python日期时间的‌七大核心模块‌,通过‌企业级代码案例‌揭示最佳实践... 目录一、背景与核心价值二、核心模块详解与实战2.1 datetime模块四剑客2.2 时区处理黄金法

Python文件操作与IO流的使用方式

《Python文件操作与IO流的使用方式》:本文主要介绍Python文件操作与IO流的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、python文件操作基础1. 打开文件2. 关闭文件二、文件读写操作1.www.chinasem.cn 读取文件2. 写

SpringBoot实现接口数据加解密的三种实战方案

《SpringBoot实现接口数据加解密的三种实战方案》在金融支付、用户隐私信息传输等场景中,接口数据若以明文传输,极易被中间人攻击窃取,SpringBoot提供了多种优雅的加解密实现方案,本文将从原... 目录一、为什么需要接口数据加解密?二、核心加解密算法选择1. 对称加密(AES)2. 非对称加密(R

详解如何在SpringBoot控制器中处理用户数据

《详解如何在SpringBoot控制器中处理用户数据》在SpringBoot应用开发中,控制器(Controller)扮演着至关重要的角色,它负责接收用户请求、处理数据并返回响应,本文将深入浅出地讲解... 目录一、获取请求参数1.1 获取查询参数1.2 获取路径参数二、处理表单提交2.1 处理表单数据三、

使用Python自动化生成PPT并结合LLM生成内容的代码解析

《使用Python自动化生成PPT并结合LLM生成内容的代码解析》PowerPoint是常用的文档工具,但手动设计和排版耗时耗力,本文将展示如何通过Python自动化提取PPT样式并生成新PPT,同时... 目录核心代码解析1. 提取 PPT 样式到 jsON关键步骤:代码片段:2. 应用 JSON 样式到

python通过curl实现访问deepseek的API

《python通过curl实现访问deepseek的API》这篇文章主要为大家详细介绍了python如何通过curl实现访问deepseek的API,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编... API申请和充值下面是deepeek的API网站https://platform.deepsee

Python Selenium动态渲染页面和抓取的使用指南

《PythonSelenium动态渲染页面和抓取的使用指南》在Web数据采集领域,动态渲染页面已成为现代网站的主流形式,本文将从技术原理,环境配置,核心功能系统讲解Selenium在Python动态... 目录一、Selenium技术架构解析二、环境搭建与基础配置1. 组件安装2. 驱动配置3. 基础操作模

Python将字库文件打包成可执行文件的常见方法

《Python将字库文件打包成可执行文件的常见方法》在Python打包时,如果你想将字库文件一起打包成一个可执行文件,有几种常见的方法,具体取决于你使用的打包工具,下面就跟随小编一起了解下具体的实现方... 目录使用 PyInstaller基本方法 - 使用 --add-data 参数使用 spec 文件(