Python实现数据清洗的18种方法

2025-01-19 04:50

本文主要是介绍Python实现数据清洗的18种方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

《Python实现数据清洗的18种方法》本文主要介绍了Python实现数据清洗的18种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学...

数据清洗可能是你们遇到的第一个大挑战,但别担心,python的魔力在于能用简洁的代码解决复杂问题。今天,我们就来学习如何用一行代码完成数据清洗的十八个小绝招。准备好,让我们一起化繁为简,成为数据清洗的高手!

1. 去除字符串两边空格

data = "   Hello World!   "  
cleaned_data = data.strip()  # 神奇的一行,左右空格拜拜  

  • 解读:strip()方法去掉字符串首尾的空白字符,简单高效。

2. 转换数据类型

num_str = "123"  
num_int = int(num_str)  # 字符串转整数,就是ihEsBzeS这么直接  
  • 注意:转换时要确保数据格式正确,否则会报错。

3. 大小写转换

text = "Python is Awesome"  
lower_text = text.lower()  # 全部变小写,便于统一处理  
upper_text = text.upper()  # 或者全部大写,随你心情  

4. 移除列表中的重复元素

my_list = [1, 2, 2, 3, 4, 4]  
unique_list = list(set(my_list))  # 集合特性,去重无压力  
  • 小贴士:这招虽好,但改变了原列表顺序哦。

5. 快速统计元素出现次数

from collections import Counter  
data = ['apple', 'banana', 'apple', 'orange']  
counts = dict(Counter(data))  # 想要知道谁最受欢迎?  
  • 解读:Counter是统计神器,轻松获取频率。

6. 字符串分割成列表

sentence = "Hello world"  
words = sentence.split(" ")  # 分割符默认为空格,一句话变单词列表  

7. 列表合并

list1 = [1, 2, 3]  
list2 = [4, 5, 6]  
merged_list = list1 + list2  # 合并列表,就这么简单  

8. 数据填充

my_list = [1, 2]  
filled_list = my_list * 3  # 重复三次,快速填充列表  

9. 提取日期时间

from datetime import datetime  
date_str = "2023-04-01"  
date_obj = datetime.strptime(date_str, "%Y-%m-%d")  # 日期字符串变对象  
  • 关键点:%Y-%m-%d是日期格式,按需调整。

10. 字符串替换

old_string = "Python is fun."  
new_string = old_string.replace("fun", "awesome")  # 改头换面,一言既出  

11. 快速排序

numbers = [5, 2, 9, 1, 5]  
sorted_numbers = sorted(numbers)  # 自然排序,升序默认  
  • 进阶:reverse=True可降序排列。

12. 提取数字

mixed_str = "The year is 2023"  
nums = ''.join(filter(str.isdigit, mixed_str))  # 只留下数字,其余走开  
  • 解密filter函数配合isdigit,只保留数字字符。

13. 空值处理(假设是列表)

data_list = [None, 1, 2, None, 3]  
filtered_list = [x for x in data_list if x is not None]  # 拒绝空值,干净利落  
  • 语法糖:列表推导式,简洁优雅。

14. 字典键值对互换

my_dict = {"key1": "value1", "key2": "value2"}  
swapped_dict = {v: k for k, v in my_dict.items()}  # 翻转乾坤,键变值,值变键  

15. 平均值计算

numbers = [10, 20, 30, 40]  
average = sum(numbers) / len(numbers)  # 平均数,一步到位  

16. 字符串分组

s = "abcdef"  
grouped = [s[i:i+2] for i in range(0, len(s), 2)]  # 每两个一组,分割有道  
  • 应用:适用于任何需要分组的场景。

17. 数据标准化

import numpy as np  
data = np.array([1, 2, 3])  
normalized_data = (data - data.mean()) / data.std()  # 数学之美,标准分布  
  • 背景:数据分析必备,让数据符合标准正态分布。

18. 数据过滤(基于条件)

data = [1, 2, 3, 4, 5]  
even_numbers = [x for x in data if x % 2 == 0]  # 只留偶数,排除异己  
  • 技巧:列表推导结合条件判断,高效筛选。

进阶实践与技巧

既然你已经掌握了基础的十八种方法,接下来让我们深入一些,探讨如何将这些技巧结合起来,解决更复杂的数据清洗问题,并分享一些实战中的小技巧。

1. 复杂字符串处理:正则表达式

正则表达式是数据清洗中不可或缺的工具,虽然严格来说可能超过一行,但它能高效地处理模式匹配和替换。

import re  
text = "Email: example@email.com Phone: 123-456-7890"  
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', text)  
phones = re.findall(r'\b\d{3}-\d{3}-\d{4}\b', text)  

这段代码分别提取了文本中的电子邮件和电话号码,展示了正则表达式的强大。

2. Pandas库的魔法

对于数据分析和清洗,Pandas是不二之选。虽然Pandas的命令通常不止一行,但其高效性和简洁性值得学习。

iChina编程mport pandas as pd  
df = pd.read_csv('data.cihEsBzeSsv')  
# 删除含有缺失值的行  
df_clean = df.dropna()  
# 替换特定值  
df['column_name'] = df['column_name'].replace('old_value', 'new_value')  
  • 注意:Pandas虽然强大,但对于初学者可能需要更多时间来熟悉。

3. 错误处理和日志记录

在处理大量数据时,错误几乎是不可避免的。学会用try-except结构捕获异常,并使用logging记录日志,可以大大提升调试效率。

import logging  
logging.basicConfig(level=logging.INFO)  
try:  
    result = some_function_that_might_fail()  
    logging.info(f"成功执行!结果:{re编程sult}")  
except Exception as e:  
    logging.error(f"执行失败:{e}")  

这样,即使出现问题,也能迅速定位。

4. 批量操作与函数封装

将常用的数据清洗步骤封装成函数,可以大大提高代码的复用性和可读性。python

def clean_phone(phone):  
    """移除电话号码中的非数字字符"""  
    return ''.join(c for c in phone if c.isdigit())  
  
phone_numbers = ['123-456-7890', '(555) 555-5555']  
cleaned_numbers = [clean_phone(phone) for phone in phone_numbers]  

通过定义clean_phone函数,我们可以轻松地清理一批电话号码。

实战建议:

  • 分步进行:不要试图一次性完成所有清洗任务,分步骤处理,逐步优化

  • 测试数据:在实际数据上测试你的清洗逻辑前,先用小样本或模拟数据验证代码的正确性。

  • 文档和注释:即使是简单的数据清洗脚本,良好的注释也能为未来的自己或其他开发者提供巨大帮助。

到此这篇关于Python实现数据清洗的18种方法的文章就介绍到这了,更多相关Python 数据清洗内容请搜索China编程(www.chinasem.cn)以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程China编程(www.chinasem.cn)!

这篇关于Python实现数据清洗的18种方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1153125

相关文章

MyBatis-Plus逻辑删除实现过程

《MyBatis-Plus逻辑删除实现过程》本文介绍了MyBatis-Plus如何实现逻辑删除功能,包括自动填充字段、配置与实现步骤、常见应用场景,并展示了如何使用remove方法进行逻辑删除,逻辑删... 目录1. 逻辑删除的必要性编程1.1 逻辑删除的定义1.2 逻辑删php除的优点1.3 适用场景2.

Python数据验证神器Pydantic库的使用和实践中的避坑指南

《Python数据验证神器Pydantic库的使用和实践中的避坑指南》Pydantic是一个用于数据验证和设置的库,可以显著简化API接口开发,文章通过一个实际案例,展示了Pydantic如何在生产环... 目录1️⃣ 崩溃时刻:当你的API接口又双叒崩了!2️⃣ 神兵天降:3行代码解决验证难题3️⃣ 深度

C#借助Spire.XLS for .NET实现在Excel中添加文档属性

《C#借助Spire.XLSfor.NET实现在Excel中添加文档属性》在日常的数据处理和项目管理中,Excel文档扮演着举足轻重的角色,本文将深入探讨如何在C#中借助强大的第三方库Spire.... 目录为什么需要程序化添加Excel文档属性使用Spire.XLS for .NET库实现文档属性管理Sp

检查 Nginx 是否启动的几种方法

《检查Nginx是否启动的几种方法》本文主要介绍了检查Nginx是否启动的几种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录1. 使用 systemctl 命令(推荐)2. 使用 service 命令3. 检查进程是否存在4

Python+FFmpeg实现视频自动化处理的完整指南

《Python+FFmpeg实现视频自动化处理的完整指南》本文总结了一套在Python中使用subprocess.run调用FFmpeg进行视频自动化处理的解决方案,涵盖了跨平台硬件加速、中间素材处理... 目录一、 跨平台硬件加速:统一接口设计1. 核心映射逻辑2. python 实现代码二、 中间素材处

Java方法重载与重写之同名方法的双面魔法(最新整理)

《Java方法重载与重写之同名方法的双面魔法(最新整理)》文章介绍了Java中的方法重载Overloading和方法重写Overriding的区别联系,方法重载是指在同一个类中,允许存在多个方法名相同... 目录Java方法重载与重写:同名方法的双面魔法方法重载(Overloading):同门师兄弟的不同绝

MySQL字符串转数值的方法全解析

《MySQL字符串转数值的方法全解析》在MySQL开发中,字符串与数值的转换是高频操作,本文从隐式转换原理、显式转换方法、典型场景案例、风险防控四个维度系统梳理,助您精准掌握这一核心技能,需要的朋友可... 目录一、隐式转换:自动但需警惕的&ld编程quo;双刃剑”二、显式转换:三大核心方法详解三、典型场景

python中的flask_sqlalchemy的使用及示例详解

《python中的flask_sqlalchemy的使用及示例详解》文章主要介绍了在使用SQLAlchemy创建模型实例时,通过元类动态创建实例的方式,并说明了如何在实例化时执行__init__方法,... 目录@orm.reconstructorSQLAlchemy的回滚关联其他模型数据库基本操作将数据添

Java数组动态扩容的实现示例

《Java数组动态扩容的实现示例》本文主要介绍了Java数组动态扩容的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录1 问题2 方法3 结语1 问题实现动态的给数组添加元素效果,实现对数组扩容,原始数组使用静态分配

Python实现快速扫描目标主机的开放端口和服务

《Python实现快速扫描目标主机的开放端口和服务》这篇文章主要为大家详细介绍了如何使用Python编写一个功能强大的端口扫描器脚本,实现快速扫描目标主机的开放端口和服务,感兴趣的小伙伴可以了解下... 目录功能介绍场景应用1. 网络安全审计2. 系统管理维护3. 网络故障排查4. 合规性检查报错处理1.