用于清洗从hbase中捞取出来的数据code

2024-02-29 23:18

本文主要是介绍用于清洗从hbase中捞取出来的数据code,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

"""用于清洗从hbase中捞取出来的数据author:tiandate: 2020-02-27
"""import pandas as pddef get_data(path):data = pd.read_excel(path, names=['glassid_operacode', 'attribute', 'name', 'value'])glassid_operacode = data['glassid_operacode'].str.split('_')glass_id = []opera_code = []for i in range(len(glassid_operacode)):glass_id.append(glassid_operacode[i][0][::-1])opera_code.append(glassid_operacode[i][1])data['glass_id'] = glass_iddata['opera_code'] = opera_codedata = data.drop('glassid_operacode', axis=1)return data# 基本属性
def get_mea_data(data, model_str):mea_data = data.loc[data['attribute'] == 'mea', :]mea_data.loc[:, 'name'] = mea_data['name'].str.replace(model_str, '')mea_data = mea_data.drop_duplicates(keep='first')mea_data.dropna(how='any', axis=0, inplace=True)ID = list(set(mea_data['glass_id']))mea = pd.DataFrame()for i in ID:id_data = mea_data.loc[mea_data['glass_id'] == i, :]local_data = id_data.loc[:, ['name', 'value']].Tlocal_data.columns = local_data.loc['name'].tolist()local_data.drop('name', axis=0, inplace=True)if mea.empty:mea = local_dataelse:mea = pd.concat([mea, local_data])mea.reset_index(drop=True, inplace=True)col_list = mea.columns.tolist()col_list.remove('glass_id')col_list.insert(0, 'glass_id')mea = mea.loc[:, col_list]return mea# X
def get_pro_data(data, model_str):pro_data = data.loc[data['attribute'] == 'pro', :]pro_data['value'] = pro_data['value'].astype(float)pro_data.loc[:, 'name'] = pro_data['name'].str.replace(model_str, '')pros = pro_data.pivot_table(index=['glass_id'], columns=['name'], values=['value'])pros.columns = pros.columns.droplevel(0)pros.reset_index()pro_ = pd.concat([pros, pd.DataFrame(data=pros.index.tolist(), columns=[pros.index.name],index=pros.index.tolist())], axis=1)col_list = pro_.columns.tolist()col_list.remove('glass_id')col_list.insert(0, 'glass_id')pro = pro_.loc[:, col_list]pro.reset_index(drop=True, inplace=True)return pro# 预测值Y
def get_pre_data(data, model_str):pre_data = data.loc[data['attribute'] == 'pre', :]pre_data.loc[:, 'name'] = pre_data['name'].str.replace('133_', '')pre_data['value'] = pre_data['value'].astype(float)pre = pre_data.pivot_table(index=['glass_id'], columns=['name'], values=['value'])pre.columns = pre.columns.droplevel(0)pre.reset_index()return pre# 量测值(真实值)Y
def get_real_data(data,model_str):real_data = data.loc[data['attribute'] == 'real', :]real_ = real_data.loc[real_data['name'] != 'glass_start_time', :]real_['value'] = real_['value'].astype(float)rea = real_.pivot_table(index=['glass_id'], columns=['name'], values=['value'])rea.columns = rea.columns.droplevel(0)rea.reset_index()glass_time = real_data.loc[real_data['name'] == 'glass_start_time', :]glass_time.drop(['attribute', 'name', 'opera_code'], axis=1, inplace=True)glass_time.rename(columns={'value': 'glass_start_time'}, inplace=True)glass_time.set_index(['glass_id'], inplace=True)real = pd.concat([rea, glass_time], axis=1)return real# 拼接所有值
def get_total_data(data, model_str):mea = get_mea_data(data, model_str)pro = get_pro_data(data, model_str)pre = get_pre_data(data, model_str)real = get_real_data(data, model_str)mea_pro = pd.merge(mea, pro)mea_pro.set_index(['glass_id'], inplace=True)pre.rename(columns={'rs_avg': 'pre_rs_avg'}, inplace=True)pre_rea = pd.concat([pre, real], axis=1)deal_data = pd.concat([mea_pro, pre_rea], axis=1)deal_data.reset_index(inplace=True)deal_data.rename(columns={'index': 'glass_id'}, inplace=True)return deal_dataif __name__ == '__main__':path = r'C:\Users\Administrator\Desktop\预测为均值\最新\133.xlsx'model = '133_'data = get_data(path)deal_data = get_total_data(data, model)deal_data.to_excel(r'C:\Users\Administrator\Desktop\预测为均值\最新\deal_data133.xlsx', index=None)

这篇关于用于清洗从hbase中捞取出来的数据code的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/760427

相关文章

Linux lvm实例之如何创建一个专用于MySQL数据存储的LVM卷组

《Linuxlvm实例之如何创建一个专用于MySQL数据存储的LVM卷组》:本文主要介绍使用Linux创建一个专用于MySQL数据存储的LVM卷组的实例,具有很好的参考价值,希望对大家有所帮助,... 目录在Centos 7上创建卷China编程组并配置mysql数据目录1. 检查现有磁盘2. 创建物理卷3. 创

Nacos日志与Raft的数据清理指南

《Nacos日志与Raft的数据清理指南》随着运行时间的增长,Nacos的日志文件(logs/)和Raft持久化数据(data/protocol/raft/)可能会占用大量磁盘空间,影响系统稳定性,本... 目录引言1. Nacos 日志文件(logs/ 目录)清理1.1 日志文件的作用1.2 是否可以删除

使用Python获取JS加载的数据的多种实现方法

《使用Python获取JS加载的数据的多种实现方法》在当今的互联网时代,网页数据的动态加载已经成为一种常见的技术手段,许多现代网站通过JavaScript(JS)动态加载内容,这使得传统的静态网页爬取... 目录引言一、动态 网页与js加载数据的原理二、python爬取JS加载数据的方法(一)分析网络请求1

8种快速易用的Python Matplotlib数据可视化方法汇总(附源码)

《8种快速易用的PythonMatplotlib数据可视化方法汇总(附源码)》你是否曾经面对一堆复杂的数据,却不知道如何让它们变得直观易懂?别慌,Python的Matplotlib库是你数据可视化的... 目录引言1. 折线图(Line Plot)——趋势分析2. 柱状图(Bar Chart)——对比分析3

Spring Boot 整合 Redis 实现数据缓存案例详解

《SpringBoot整合Redis实现数据缓存案例详解》Springboot缓存,默认使用的是ConcurrentMap的方式来实现的,然而我们在项目中并不会这么使用,本文介绍SpringB... 目录1.添加 Maven 依赖2.配置Redis属性3.创建 redisCacheManager4.使用Sp

Python Pandas高效处理Excel数据完整指南

《PythonPandas高效处理Excel数据完整指南》在数据驱动的时代,Excel仍是大量企业存储核心数据的工具,Python的Pandas库凭借其向量化计算、内存优化和丰富的数据处理接口,成为... 目录一、环境搭建与数据读取1.1 基础环境配置1.2 数据高效载入技巧二、数据清洗核心战术2.1 缺失

Python处理超大规模数据的4大方法详解

《Python处理超大规模数据的4大方法详解》在数据的奇妙世界里,数据量就像滚雪球一样,越变越大,从最初的GB级别的小数据堆,逐渐演变成TB级别的数据大山,所以本文我们就来看看Python处理... 目录1. Mars:数据处理界的 “变形金刚”2. Dask:分布式计算的 “指挥家”3. CuPy:GPU

使用Vue-ECharts实现数据可视化图表功能

《使用Vue-ECharts实现数据可视化图表功能》在前端开发中,经常会遇到需要展示数据可视化的需求,比如柱状图、折线图、饼图等,这类需求不仅要求我们准确地将数据呈现出来,还需要兼顾美观与交互体验,所... 目录前言为什么选择 vue-ECharts?1. 基于 ECharts,功能强大2. 更符合 Vue

Java如何根据word模板导出数据

《Java如何根据word模板导出数据》这篇文章主要为大家详细介绍了Java如何实现根据word模板导出数据,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... pom.XML文件导入依赖 <dependency> <groupId>cn.afterturn</groupId>

Python实现获取带合并单元格的表格数据

《Python实现获取带合并单元格的表格数据》由于在日常运维中经常出现一些合并单元格的表格,如果要获取数据比较麻烦,所以本文我们就来聊聊如何使用Python实现获取带合并单元格的表格数据吧... 由于在日常运维中经常出现一些合并单元格的表格,如果要获取数据比较麻烦,现将将封装成类,并通过调用list_exc