【昕宝爸爸小模块】深入浅出之针对大Excel做文件读取问题

2024-01-18 15:12

本文主要是介绍【昕宝爸爸小模块】深入浅出之针对大Excel做文件读取问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述


➡️博客首页       https://blog.csdn.net/Java_Yangxiaoyuan


       欢迎优秀的你👍点赞、🗂️收藏、加❤️关注哦。


       本文章CSDN首发,欢迎转载,要注明出处哦!


       先感谢优秀的你能认真的看完本文,有问题欢迎评论区交流,都会认真回复!


✅如何针对大Excel做文件读取?

  • 一、✅如何针对大Excel做文件读取
    • 1.1🟩XSSFWorkbook文件读取
    • 1.2🟩EasyExcel文件读取
  • 二、✅扩展知识
    • 2.1🟩 EasyExcel简介
    • 2.2🟩EasyExcel 为什么内存占用小?


一、✅如何针对大Excel做文件读取


在POI中,提供了SXSSFWorkbook,通过将部分数据写入磁盘上的临时文件来减少内存占用。但是SXSSFWorkbook只能用于文件写入,但是文件读取还是不行的,就像我们前面分析过的,Excel的文件读取还是会存在内存溢出的问题的。


🟢参考本人博客文件处理专栏: 什么是POI,为什么他会导致内存溢出?


🟢参考本人博客文件处理专栏: POI如何做大文件的写入?


那如果要解决这个问题,可以考虑使用EasyExcel。


EasyExcel是一个基于Java的、快速、简洁、解决大文件内存溢出的Excel处理工具。他能让你在不用考虑性能、
内存的等因素的情况下,快速完成Excel的读、写等功能。

关于使用XSSFWorkbook和EasyExcel的文件读取,我这里也做了个内存占用的对比:


1.1🟩XSSFWorkbook文件读取


读取一个27.3MB的文件(文件的生成代码📑✅链接: POI如何做大文件的写入)


package excel.read;import org.apache.poi.ss .usermodel.*;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
/**
* @author xinbaobaba
* XSSFWorkbook文件读取代码示范
*/
public class XSSFExcelReadTest {public static void main(String[] args) {// 指定要读取的文件路径String filename = "example.xlsx";try (FileInputStream fileInputStream = new FileInputStream(new File(filename))) {// 创建工作簿对象Workbook workbook = new XSSFWorkbook(fileInputStream);//获取第一个工作表Sheet sheet = workbook.getSheetAt(0);// foreach 遍历所有行for (Row row : sheet) {// 遍历所有单元格for (Cell cell : row) {// 根据不同数据类型处理数据switch (cel1.getCel1Type()) {case STRING:System.out.print(cell.getstringCellValue() + " t");break;case NUMERIC:if (DateUtil.isCellDateFormatted(cell)) {System.out.print(cell.getDateCellValue() + "t");} else {System.out.print(cell.getNumericCellValue() + " t”);}break;case BOOLEAN:System.out.print(cell.getBooleanCellValue() + " t");break;case FORMULA:System.out.print(cell.getCellFormula() + "t");break;default:System.out.print("");}}System.out.println();//换行}}catch (IOException e)  {e.printStackTrace();}}
}

同样使用Arthas查看内存占用情况:


在这里插入图片描述


占用内存1000+M


1.2🟩EasyExcel文件读取


package excel.read;import com.alibaba.excel.EasyExcel;
import com.alibaba.excel.context.AnalysisContext;
import com.alibaba.excel.read.listener.ReadListener:/**
* @author xinbaobaba
* EasyExcel文件读取代码示例
*/
public class EasyExcelReadTest {public static void main(Stringl] args) {// 指定要读取的文件路径String filename = "example.xlsx";EasyExcel.read(filename, new PrintDataListener()).sheet().doRead();}
}// 监听器,用于处理读取到的数据
class PrintDatalistener implements ReadListener<Object> {@Overridepublic void invoke(Object data, AnalysisContext context) {//处理每一行的数据System.out.println(data) ;}@Overridepublic void doAfterAllAnalysed(AnalysisContext context) {// 所有数据解析完成后的操作}@Overridepublic void onException(Exception exception, AnalysisContext context) throws Exception {//处理读取过程中的异常}
}

同样使用Arthas查看内存占用情况:


在这里插入图片描述


内存占用只有不到100MB。


二、✅扩展知识


2.1🟩 EasyExcel简介


EasyExcel是一款软件程序,允许用户创建、编辑和分析电子表格。它设计成用户友好和直观,使得所有技能水平的用户都能轻松处理数据。EasyExcel提供了广泛的功能,包括进行计算、创建图表和图形以及在表格中组织数据的能力。它还支持各种文件格式,如.xls和.xlsx,使用户能够方便地导入和导出来自其他应用程序的数据。总体而言,EasyExcel是一种多功能的工具,用于管理和操作电子表格格式的数据。


2.2🟩EasyExcel 为什么内存占用小?


EasyExcel是一款基于POI(Apache开源的Java类库)开发的Excel操作工具。相比于传统的操作Excel的方式,EasyExcel采用了一种新的处理方式,即将Excel数据转化为对象列表然后进行操作。这种方式减少了对内存的占用,提高了数据处理的效率。


具体的来说,EasyExcel在内存占用方面有以下几个优势:


1. 逐行读写:EasyExcel通过逐行读写的方式操作Excel,即一次只读取或写入一行数据,而不是一次性读取或写入整个文件。这样可以大大减少对内存的占用。

2. 分段读写:当需要处理大文件时,EasyExcel可以将文件拆分成多个小段进行读写,每次只处理一小段数据,将读写的内存压力均匀分散,降低了内存的占用。

3. 内存缓冲区:EasyExcel内部使用了内存缓冲区来存储读取或写入的数据,通过合理控制缓冲区的大小,可以有效地减少对内存的占用。

4. 高效的数据处理算法:EasyExcel内部采用了高效的数据处理算法,例如使用零拷贝技术来提高数据读写的速度,减少对内存的占用。

综上所述,EasyExcel通过优化读写方式、使用内存缓冲区和高效的数据处理算法等手段,可以实现在相同数据量的情况下占用更小的内存空间,提高数据处理的效率。


参考代码示例:


import com.alibaba.excel.EasyExcel;
import com.alibaba.excel.read.listener.ReadListener;import java.io.File;/**
* @author xinbaobaba
* 展示了如何使用EasyExcel读取Excel文件并计算内存占用
*/
public class EasyExcelMemoryDemo {public static void main(String[] args) {String filePath = "path/to/excel/file.xlsx";// 创建一个监听器,用于统计内存占用ReadListener<Object> listener = new ReadListener<>() {private long startMemory;@Overridepublic void invoke(Object data, AnalysisContext context) {if (context.readRowHolder().getRowIndex() == 0) {// 记录读取第一行数据时的内存占用startMemory = Runtime.getRuntime().totalMemory() - Runtime.getRuntime().freeMemory();}}@Overridepublic void doAfterAllAnalysed(AnalysisContext context) {// 读取完所有数据后,计算内存占用的差值long endMemory = Runtime.getRuntime().totalMemory() - Runtime.getRuntime().freeMemory();long memoryUsage = endMemory - startMemory;System.out.println("Excel文件读取完毕");System.out.println("内存占用差值:" + memoryUsage + " bytes");}};// 读取Excel文件EasyExcel.read(new File(filePath)).registerReadListener(listener).sheet().doRead();}
}

输出Excel文件读取完毕后的内存占用差值。相比于使用传统的POI工具,使用EasyExcel读取Excel文件时,内存占用会更小。


EasyExcel是一个Java库,用于简化Excel文件的读写操作。相较于Apache POI等传统Excel处理库,EasyExcel具有内存占用小的优势。这主要归功于EasyExcel的底层实现和数据处理方式。


展示:


import com.alibaba.excel.EasyExcel;  
import com.alibaba.excel.ExcelReader;  
import com.alibaba.excel.ExcelWriter;  
import com.alibaba.excel.context.AnalysisContext;  
import com.alibaba.excel.event.AnalysisEventListener;  
import com.alibaba.excel.metadata.BaseRowModel;  
import com.alibaba.excel.write.builder.ExcelWriterSheetBuilder;  
import com.alibaba.excel.write.metadata.WriteSheet;  
import com.alibaba.excel.write.metadata.WriteTable;  
import com.alibaba.excel.write.style.HorizontalCellStyleStrategy;  import java.util.ArrayList;  
import java.util.List;  /***@author 昕宝爸爸*@date 24/01/18*/
public class AdvancedMemoryOptimizedExample {  public static void main(String[] args) {  String inputFileName = "input_example_complex.xlsx";  String outputFileName = "output_example_complex.xlsx";  int pageSize = 1000;  int sheetCount = 3; // 定义要写入的Sheet数量  int totalPage = 0; // 总页数变量,用于动态计算总页数  // 创建数据模型类,用于存储读取到的数据  class DataModel extends BaseRowModel {  private String field1; // 字段1  private int field2; // 字段2  // 其他字段...  // 对应的getter和setter方法...  }  // 内存优化示例:读取Excel文件并分页处理  List<DataModel> dataList = new ArrayList<>(); // 创建一个空的列表用于存储数据  ExcelReader excelReader = EasyExcel.read(inputFileName, new NoModelDataListener<DataModel>()).build(); // 使用自定义的DataModel类作为监听器的参数类型  ReadSheet readSheet = EasyExcel.readSheet(pageSize).build(); // 设置读取时的分页参数  excelReader.read(readSheet, new AnalysisEventListener<DataModel>() { // 使用自定义的DataModel类作为事件处理接口的参数类型  @Override  public void invoke(DataModel data, AnalysisContext context) {  // 在invoke方法中进行自定义数据处理逻辑,比如将读取到的数据存储到数据库等操作...  dataList.add(data); // 这里仅作示例,将读取到的数据添加到列表中,实际应用中可能需要进行其他处理  }  @Override  public void doAfterAllAnalysed(AnalysisContext context) {  // 处理读取完所有数据后的逻辑...可以在这里添加一些操作,比如关闭资源等  totalPage = context.getHead().getSheet().getVirtual(context).getTotalRowNum() / pageSize + 1; // 动态计算总页数,用于后续写入操作时使用  }  }); // 开始读取数据,并传入监听器进行数据处理  excelReader.finish(); // 读取完成后关闭Excel读取器  // 内存优化示例:写入Excel文件并自定义样式和分页写入策略  WriteCellStyle contentWriteCellStyle = new WriteCellStyle(); // 创建一个自定义的单元格样式对象,可以根据需要设置样式属性  HorizontalCellStyleStrategy horizontalCellStyleStrategy = new HorizontalCellStyleStrategy(null, contentWriteCellStyle); // 创建一个水平单元格样式策略对象,用于设置单元格样式策略  ExcelWriterBuilder writerBuilder = EasyExcel.write(outputFileName); // 创建Excel写入器构建器对象,用于配置写入参数和设置样式策略等  writerBuilder.registerWriteHandler(horizontalCellStyleStrategy); // 注册之前创建的样式策略对象到写入器中,用于设置单元格样式策略  ExcelWriter excelWriter = writerBuilder.build(); // 创建Excel写入器实例,用于实际写入操作  for (int i = 1; i <= sheetCount; i++) { // 根据定义的Sheet数量循环创建多个Sheet进行写入操作  WriteSheet writeSheet = EasyExcel.writerSheet("Sheet" + i).build(); // 创建多个Sheet进行写入操作,每个Sheet名称分别为"Sheet1"、"Sheet2"等,可以根据需要自定义Sheet名称和数量等参数  excelWriter.write(dataList, writeSheet, totalPage); // 将之前读取到的数据写入到输出文件中,并传入Sheet参数和样式策略等参数,同时传入动态计算的总页数参数,用于分页写入操作时使用  } // 循环写入多个Sheet数据到输出文件中,并传入对应的样式策略和总页数参数等

主要通过以下几个方式来节省内存:


使用分页读取和写入:通过设置pageSize参数,将数据分页读取和写入,可以减少一次性读取和写入的数据量,从而减少内存占用。


使用数据模型类:通过创建一个数据模型类(DataModel),将读取到的数据存储到该类的对象中,而不是直接存储到原始数据类型列表中。这样可以避免为每个数据项创建过多的对象,从而减少内存占用。


使用水平单元格样式策略:通过创建一个水平单元格样式策略对象(HorizontalCellStyleStrategy),并将样式策略注册到Excel写入器中。该策略可以根据单元格的内容自动应用样式,从而减少手动设置样式所带来的内存开销。


动态计算总页数:在读取完所有数据后,通过调用context.getHead().getSheet().getVirtual(context).getTotalRowNum()方法,动态计算总页数。这样可以避免在循环中多次计算总页数,从而减少内存占用。


综上所述,通过分页读取和写入、使用数据模型类、使用水平单元格样式策略以及动态计算总页数等方式,实现了内存的优化使用

这篇关于【昕宝爸爸小模块】深入浅出之针对大Excel做文件读取问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/619402

相关文章

线上Java OOM问题定位与解决方案超详细解析

《线上JavaOOM问题定位与解决方案超详细解析》OOM是JVM抛出的错误,表示内存分配失败,:本文主要介绍线上JavaOOM问题定位与解决方案的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录一、OOM问题核心认知1.1 OOM定义与技术定位1.2 OOM常见类型及技术特征二、OOM问题定位工具

Python实现Excel批量样式修改器(附完整代码)

《Python实现Excel批量样式修改器(附完整代码)》这篇文章主要为大家详细介绍了如何使用Python实现一个Excel批量样式修改器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录前言功能特性核心功能界面特性系统要求安装说明使用指南基本操作流程高级功能技术实现核心技术栈关键函

Python实现批量CSV转Excel的高性能处理方案

《Python实现批量CSV转Excel的高性能处理方案》在日常办公中,我们经常需要将CSV格式的数据转换为Excel文件,本文将介绍一个基于Python的高性能解决方案,感兴趣的小伙伴可以跟随小编一... 目录一、场景需求二、技术方案三、核心代码四、批量处理方案五、性能优化六、使用示例完整代码七、小结一、

Vue3绑定props默认值问题

《Vue3绑定props默认值问题》使用Vue3的defineProps配合TypeScript的interface定义props类型,并通过withDefaults设置默认值,使组件能安全访问传入的... 目录前言步骤步骤1:使用 defineProps 定义 Props步骤2:设置默认值总结前言使用T

Python中logging模块用法示例总结

《Python中logging模块用法示例总结》在Python中logging模块是一个强大的日志记录工具,它允许用户将程序运行期间产生的日志信息输出到控制台或者写入到文件中,:本文主要介绍Pyt... 目录前言一. 基本使用1. 五种日志等级2.  设置报告等级3. 自定义格式4. C语言风格的格式化方法

深入浅出Spring中的@Autowired自动注入的工作原理及实践应用

《深入浅出Spring中的@Autowired自动注入的工作原理及实践应用》在Spring框架的学习旅程中,@Autowired无疑是一个高频出现却又让初学者头疼的注解,它看似简单,却蕴含着Sprin... 目录深入浅出Spring中的@Autowired:自动注入的奥秘什么是依赖注入?@Autowired

Web服务器-Nginx-高并发问题

《Web服务器-Nginx-高并发问题》Nginx通过事件驱动、I/O多路复用和异步非阻塞技术高效处理高并发,结合动静分离和限流策略,提升性能与稳定性... 目录前言一、架构1. 原生多进程架构2. 事件驱动模型3. IO多路复用4. 异步非阻塞 I/O5. Nginx高并发配置实战二、动静分离1. 职责2

解决升级JDK报错:module java.base does not“opens java.lang.reflect“to unnamed module问题

《解决升级JDK报错:modulejava.basedoesnot“opensjava.lang.reflect“tounnamedmodule问题》SpringBoot启动错误源于Jav... 目录问题描述原因分析解决方案总结问题描述启动sprintboot时报以下错误原因分析编程异js常是由Ja

Python 基于http.server模块实现简单http服务的代码举例

《Python基于http.server模块实现简单http服务的代码举例》Pythonhttp.server模块通过继承BaseHTTPRequestHandler处理HTTP请求,使用Threa... 目录测试环境代码实现相关介绍模块简介类及相关函数简介参考链接测试环境win11专业版python

MySQL 表空却 ibd 文件过大的问题及解决方法

《MySQL表空却ibd文件过大的问题及解决方法》本文给大家介绍MySQL表空却ibd文件过大的问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考... 目录一、问题背景:表空却 “吃满” 磁盘的怪事二、问题复现:一步步编程还原异常场景1. 准备测试源表与数据