Python处理大量Excel文件的十个技巧分享

2025-05-28 03:50

本文主要是介绍Python处理大量Excel文件的十个技巧分享,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

《Python处理大量Excel文件的十个技巧分享》每天被大量Excel文件折磨的你看过来!这是一份Python程序员整理的实用技巧,不说废话,直接上干货,文章通过代码示例讲解的非常详细,需要的朋友可...

一、批量读取多个Excel文件

在实际工作中,经常要处理多个Excel文件。用python批量读取特别方便:

import pandas as pd
import os

def BATch_read_excel(folder_path):
    # 存储所有数据框
    all_data = []
    
    # 遍历文件夹中的所有Excel文件
    for file in os.listdir(folder_path):
        if file.endswith(('.xlsx', '.xls')):
            file_path = os.path.join(folder_path, file)
            # 读取文件并添加来源列
            df = pd.read_excel(file_path)
            df['文件来源'] = file
            all_data.append(df)
    
    # 合并所有数据框
    return pd.concat(all_data, ignore_index=True)

# 使用示例
data = batch_read_excel('D:/工作/销售数据/')

二、选择性读取工作表和列

有时候Excel文件很大,但我们只需要某些工作表和列,这样可以节省内存:

def smart_read_excel(filename):
    # 只读取需要的工作表和列
    sheets_to_read = ['销售数据', '客户信息']
    useful_columns = ['日期', '产品', '销量', '单价']
    
    all_data = {}
    for sheet in sheets_to_read:
        df = pd.read_excel(
            filename,
            sheet_name=sheet,
            usecols=useful_columns,
            dtype={
                '销量': 'int32',  # 指定数据类型优化内存
                '单价': 'float32'
            }
        )
        all_data[sheet] = df
    
    return all_data

三、自动调整格式和样式

数据处理完还要调整格式?这个函数帮你一键搞定:

from openpyxl.styles import PatternFill, Font, Alignment
from openpyxl.utils import get_column_letter

def style_excel(filename):
    # 读取Excel
    wb = load_workbook(filename)
    ws = wb.active
    
    # 设置列宽
    for col in range(1, ws.max_column + 1):
        ws.column_dimensions[get_column_letter(col)].width = 15
    
    # 设置表头样式
    header_fill = PatternFill(start_color='FF92D050', end_color='FF92D050', fill_type='solid')
    header_font = Font(bold=True, color='FFFFFF', size=12)
    
    for cell in ws[1]:
        cell.fill = header_fill
        cell.font = header_font
        cell.alignment = Alignment(horizontal='center')
    
    # 设置数据区域格式
    for row in ws.iter_rows(min_row=2):
        for cell in row:
            cell.alignment = Alignment(horizontal='center')
            # 数字列右对齐
            if isinstance(cell.value, (int, float)):
                cell.alignmejavascriptnt = Alignment(horizontal='right')
    
    wb.save(filename)

四、智能数据清洗

数据清洗是最耗时的工作,这个函数能自动处理常见问题:

def clean_excel_data(df):
    # 删除全空的行
    df = df.dropna(how='all')
    
    # 填充空值
    numeric_columns = df.select_dtypes(include=['int64', 'float64']).columns
    df[numeric_columns] = df[numeric_columns].fillna(0)
    
    # 处理日期列
    date_columns = ['订单日期', '发货日期']
    for col in date_columns:
        if col in df.columns:
            df[col] = pd.to_datetime(df[col], errors='coerce')
    
    # 删除重复记录
    df = df.drop_duplicates()
    
    # 处理异常值
    for col in numeric_columns:
        # 将超过3个标准差的值替换为均值
        mean = df[col].mean()
        std = df[col].std()
        df.loc[abs(df[col] - mean) > 3*std, col] = mean
    
    return df

五、自动生成数据透 视表

手动制作数据透 视表太麻烦?Python一行搞定:

def create_pivot_tables(df, filename):
    # 创建Excel写入器
    writer = pd.ExcelWriter(filename, engine='openpyxl')
    
    # 按产品类别统计销售额
    pivot1 = pd.pivot_table(
        df,
        values='销售额',
        index='产品类别',
        columns='月份',
        aggfunc='sum',
        margins=True,
        margins_name='总计'
    )
    
    # 按销售区域分析销量
    pivot2 = pd.pivot_table(
        df,
        values=['销量', '销售额'],
        index='销售区域',
        columns='产品类别',
        aggfunc={
            '销量': 'sum',
            '销售额': ['sum', 'mean']
        }
    )
    
    # 写入不同工作表
    pivot1.to_excel(writer, sheet_name='产品类别分析')
    pivot2.to_excel(writer, sheet_name='区域分析')
    
    writer.save()

六、自动生成图表

数据可视化也能自动化:

import matplotlib.pyplot as plt
import seaborn as sns

def create_sales_charts(df, save_path):
    # 设置中文字体
    plt.rcParams['font.sans-seandroidrif'] = ['SimHei']
    
    # 1. 销售趋势图
    plt.figure(figsize=(12, 6))
    df.groupby('日期')['销售额'].sum().plot(kind='line')
    plt.title('销售趋势分析')
    plt.tight_layout()
    plt.savefig(f'{save_path}/销售趋势.png')
    
    # 2. 品类占比饼图
    plt.figure(figsize=(8, 8))
    df.groupby('产品类别')['销售额'].sum().plot(kind='pie', autopct='%1.1f%%')
    plt.title('产品类别销售占比')
    plt.savefig(f'{save_path}/品类占比.png')
    
    # 3. 区域销售热力图
    plt.figure(figsize=(10, 8))
    pivot = df.pivot_table(
        values='销售额',
        index='销售区域',
        columns='产品类别',
        aggfunc='sum'
    )
    sns.heatmap(pivot, annot=True, fmt='.0f', cmap='YlOrRd')
    plt.title('区域产品销售热力图')
    plt.tight_layout()
    plt.savefig(f'{save_path}/销售热力图.png')

七、自动发送邮件报告

处理完数据后自动发送邮件:

import smtplib
from email.mime.text import MIMEText
from email.mime.multipart import MIMEMultipart
from email.mime.application import MIMEApplication

def send_excel_report(file_path, recipients):
    # 邮件设置
    msg = MIMEMultipart()
    msg['Subject'] = '销售数据分析报告'
    msg['From'] = '你的邮箱'
    msg['To'] = ', '.join(recipients)
    
    # 邮件正文
    content = '''
    各位好:
    
    附件是最新的销售数据分析报告,请查收。
    
    以下是重要发现:
    1. 本月销售额较上月增长15%
    2. 华东区域表现最好,占比40%
    3. 新品类增长迅速,环比增长50%
    
    如有问题请及时反馈。
    '''
    msg.attach(MIMEText(content, 'plain', 'utf-8'))
    
    # 添加附件
    with open(file_path, 'rb') as f:
        attachment = MIMEApplication(f.read())
        attachment.add_header(
            'Content-Disposition',
            'attachment',
            filename=os.path.basename(file_path)
        )
        msg.attach(attachment)
    
    # 发送邮件
    with smtplib.SMTP('smtp.公司邮箱.com', 25) as server:
        server.login('你的邮箱', '密码')
        server.send_message(msg)

八、定时自动运行

把上面的功能集成起来,设置定时运行:

import schedule
import time

def daily_report_job():
    # 1. 读取数据
    data = batch_read_excel('数据文件夹路径')
    
    # 2. 清洗数据
    clean_data = clean_excel_data(data)
    
    # 3. 生成报表
    create_p编程ivot_tables(clean_data, '分析报告.xlsx')
    
    # 4. 生成图表
    create_sales_charts(clean_data, '图表文件夹路径')
    
    # 5. 发送邮件
    send_excel_report(
        '分析报告.xlsx',
        ['leader@company.com', 'team@company.com']
    )

# 设置每天早上9点运行
schedule.every().day.at('09:00').do(daily_report_job)

while True:
    schedule.run_pending()
    time.sleep(60)

九、Excel文件比对

经常要对比两个Excel文件的差异:

def compare_excel_files(file1, file2):
    # 读取两个文件
    df1 = pd.read_excel(file1)
    df2 = pd.read_excel(file2)
    
    # 设置索引
    key_columns = ['订单号', '产品编码']
    df1.set_index(key_columns, inplace=True)
    df2.set_index(key_columns, inplace=True)
    
    # 找出不同的行
    diff_rows = df1.compare(df2)
    
    # 找出file2中新增的行
    new_rows = df2.loc[~df2.index.isin(df1.index)]
    
    # 找出file2中删除的行
    deleted_rows = df1.loc[~df1.index.isin(df2.index)]
    
    # 保存结果
    with pd.ExcelWriter('文件对比结果.xlsx') as writer:
        diff_rows.to_excel(writer, sheet_name='数据变化')
        new_rows.to_excel(writer, sheet_name='新增数据')
        deleted_rows.to_excel(writer, sheet_name='删除数据')

十、性能优化技巧

处理大文件时的一些优化技巧:

def process_large_excel(filename):
    # 1. 分块读取
    chunks = pd.read_excel(
        filename,
    China编程    chunksize=10000  # 每次读取1万行
    )
    
    results = []
    for chunk in chunks:
        # 处理每个数据块
        processed = process_chunk(chunk)
        results.append(processed)
    
    # 合并结果
    final_result = pd.concat(results)
    
    # 2. 使用更小的数据类型
    optimized_types = {
        'int64': 'int32',
        'float64': 'float32',
        'object': 'category'  # 对于重复值多的字符串列
    }
    
    for China编程col in final_result.columns:
        if final_result[col].dtype.name in optimized_types:
            final_result[col] = final_result[col].astype(optimized_types[final_result[col].dtype.name])
    
    return final_result

这些代码都经过实际项目验证,复制就能用。还有一些使用小技巧:

  • 代码运行前最好先备份数据
  • 处理大文件时注意内存占用
  • 多使用pandas的向量化操作,少用循环
  • 善用datetime处理日期
  • 记得处理异常情况

以上就是Python处理大量Excel文件的十个技巧分享的详细内容,更多关于Python处理Excel文件的资料请关注China编程(www.chinasem.cn)其它相关文章!

这篇关于Python处理大量Excel文件的十个技巧分享的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1154810

相关文章

如何基于Python开发一个微信自动化工具

《如何基于Python开发一个微信自动化工具》在当今数字化办公场景中,自动化工具已成为提升工作效率的利器,本文将深入剖析一个基于Python的微信自动化工具开发全过程,有需要的小伙伴可以了解下... 目录概述功能全景1. 核心功能模块2. 特色功能效果展示1. 主界面概览2. 定时任务配置3. 操作日志演示

Mac备忘录怎么导出/备份和云同步? Mac备忘录使用技巧

《Mac备忘录怎么导出/备份和云同步?Mac备忘录使用技巧》备忘录作为iOS里简单而又不可或缺的一个系统应用,上手容易,可以满足我们日常生活中各种记录的需求,今天我们就来看看Mac备忘录的导出、... 「备忘录」是 MAC 上的一款常用应用,它可以帮助我们捕捉灵感、记录待办事项或保存重要信息。为了便于在不同

电脑蓝牙连不上怎么办? 5 招教你轻松修复Mac蓝牙连接问题的技巧

《电脑蓝牙连不上怎么办?5招教你轻松修复Mac蓝牙连接问题的技巧》蓝牙连接问题是一些Mac用户经常遇到的常见问题之一,在本文章中,我们将提供一些有用的提示和技巧,帮助您解决可能出现的蓝牙连接问... 蓝牙作为一种流行的无线技术,已经成为我们连接各种设备的重要工具。在 MAC 上,你可以根据自己的需求,轻松地

python多线程并发测试过程

《python多线程并发测试过程》:本文主要介绍python多线程并发测试过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、并发与并行?二、同步与异步的概念?三、线程与进程的区别?需求1:多线程执行不同任务需求2:多线程执行相同任务总结一、并发与并行?1、

如何关闭Mac的Safari通知? 3招教你关闭Safari浏览器网站通知的技巧

《如何关闭Mac的Safari通知?3招教你关闭Safari浏览器网站通知的技巧》当我们在使用Mac电脑专注做一件事情的时候,总是会被一些消息推送通知所打扰,这时候,我们就希望关闭这些烦人的Mac通... Safari 浏览器的「通知」功能本意是为了方便用户及时获取最新资讯,但很容易被一些网站滥用,导致我们

python操作redis基础

《python操作redis基础》Redis(RemoteDictionaryServer)是一个开源的、基于内存的键值对(Key-Value)存储系统,它通常用作数据库、缓存和消息代理,这篇文章... 目录1. Redis 简介2. 前提条件3. 安装 python Redis 客户端库4. 连接到 Re

Python+PyQt5实现MySQL数据库备份神器

《Python+PyQt5实现MySQL数据库备份神器》在数据库管理工作中,定期备份是确保数据安全的重要措施,本文将介绍如何使用Python+PyQt5开发一个高颜值,多功能的MySQL数据库备份工具... 目录概述功能特性核心功能矩阵特色功能界面展示主界面设计动态效果演示使用教程环境准备操作流程代码深度解

如何Python使用设置word的页边距

《如何Python使用设置word的页边距》在编写或处理Word文档的过程中,页边距是一个不可忽视的排版要素,本文将介绍如何使用Python设置Word文档中各个节的页边距,需要的可以参考下... 目录操作步骤代码示例页边距单位说明应用场景与高级用China编程途小结在编写或处理Word文档的过程中,页边距是一个

Python Flask 库及应用场景

《PythonFlask库及应用场景》Flask是Python生态中​轻量级且高度灵活的Web开发框架,基于WerkzeugWSGI工具库和Jinja2模板引擎构建,下面给大家介绍PythonFl... 目录一、Flask 库简介二、核心组件与架构三、常用函数与核心操作 ​1. 基础应用搭建​2. 路由与参

利用Python实现时间序列动量策略

《利用Python实现时间序列动量策略》时间序列动量策略作为量化交易领域中最为持久且被深入研究的策略类型之一,其核心理念相对简明:对于显示上升趋势的资产建立多头头寸,对于呈现下降趋势的资产建立空头头寸... 目录引言传统策略面临的风险管理挑战波动率调整机制:实现风险标准化策略实施的技术细节波动率调整的战略价