OpenCSV处理反斜线 \ ,将.csv文件映射为Java对象落库clickhouse

2023-10-12 08:20

本文主要是介绍OpenCSV处理反斜线 \ ,将.csv文件映射为Java对象落库clickhouse,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、关键:RFC4180Parser

1、默认情况下,CSVReader使用双反斜线(’\’)作为其转义字符。同时,CSVWriter使用双引号(’“’)作为转义字符。
因此,反斜线字符会导致不正确的转义。在读数据时,CSVParser将忽略单个反斜线字符,因为它是转义字符。  
CSVReader使用CSVParser解析CSV数据。2、OpenCSV还提供了一个严格遵循RFC4180标准的解析器:RFC4180Parser。
使用 RFC4180Parser 解析器,CSVReader会以双引号(’“’)作为转义字符,这样就可以与CSVWriter的转义方式保持一致。

二、原始需求

使用定时任务,将用户的行为日志数据文件(.csv)解析为java对象,并批量落入clickhouse数据库(MySQL亦同理)。
行为日志包含:网站访问日志、文件上传日志等数据

三、具体方案:本文着重介绍第3点

  • 1、springboot+mybatis配置clickhouse(略) 点击前往

  • 2、spring的定时任务@Scheduled

 /*** 1、每天00:05,将当天的用户行为日志文件解压至指定文件夹*/@Scheduled(cron = "0 5 0 * * ?")public void unZipFile() {/** 1、解压当天拉取的前一天行为日志文件到指定文件夹下 **/log.info("时间:"+DateUtils.getCurrentDateStr()+",开始解压文件 filePath:" + filePath + ",unZipPath:" + unZipPath);fileUnzipService.unZip(filePath + DateUtils.getYestoday(DateUtils.YYMMDD), unZipPath + DateUtils.getYestoday(DateUtils.YY_MM_DD) + "/");}/*** 2、每天00:30,将前一天解压后的用户行为日志文件数据同步至clickhouse* 具体为clickhouse库的 xxx 表* 3、入库完成后,删除前一天(昨天)同步目录下的行为日志文件,并且删除前两天(前天)解压目录下的日志文件,减少对服务器存储资源的占用*/@Scheduled(cron = "0 30 0 * * ?")public void syncUserLogFromFileToCK() {//1、解析.csv文件映射为java对象;//2、批量入库clickhouse,并记录每天不同日志类型入库的数据条数,方便后续查看}

- 3、openCSV解析.csv映射为java对象

四、实施步骤:

.csv文件数据demo(基于文件数据创建clickhouse对应的表以及映射的java对象)
在这里插入图片描述

  • 1、openCSV jar包引入
 <dependency><groupId>com.opencsv</groupId><artifactId>opencsv</artifactId><version>4.6</version>
</dependency>
  • 2、serviceImpl代码(依次对应3种不同类型日志)
/**- @author: Lucy- @version:- @createTime: 2021/5/19 10:51- @Description: 使用opencsv解析csv文件(基于字段名的映射)并进行ORM映射为对象集合 需- 注意CSV文件中列的内容包含转义字符 "\"的问题- 指定转换类型的注解主要有@CsvCustomBindByName和@CsvCustomBindByPosition这2种,分别对应基于字段名的映射和基于字段位置的映射。*/
@Service
@Slf4j
public class CsvParseLogServiceImpl implements CsvParseLogService {@Overridepublic List<UserBehaviorsOtherLog> parseOtherByName(File file) throws IOException {InputStreamReader inputStream = new InputStreamReader(new FileInputStream(file), StandardCharsets.UTF_8);// 设置解析策略,csv的头和POJO属性的名称对应,也可以使用@CsvBindByName注解来指定名称HeaderColumnNameMappingStrategy strategy = new HeaderColumnNameMappingStrategy();strategy.setType(UserBehaviorsOtherLog.class);CsvToBean csvToBean = new CsvToBeanBuilder(inputStream).withMappingStrategy(strategy)//文件中使用的分割符 默认为逗号分割//.withSeparator(',').build();List<UserBehaviorsOtherLog> csvDTOList = csvToBean.parse();return csvDTOList;}@Overridepublic List<UserBehaviorsUpfileLog> parseUpfileByName(File file) throws IOException {InputStreamReader inputStream = new InputStreamReader(new FileInputStream(file), StandardCharsets.UTF_8);// 设置解析策略,csv的头和POJO属性的名称对应,也可以使用@CsvBindByName注解来指定名称HeaderColumnNameMappingStrategy strategy = new HeaderColumnNameMappingStrategy();strategy.setType(UserBehaviorsUpfileLog.class);CsvToBean csvToBean = new CsvToBeanBuilder(inputStream).withMappingStrategy(strategy)//文件中使用的分割符 默认为逗号分割//.withSeparator(',').build();List<UserBehaviorsUpfileLog> csvDTOList = csvToBean.parse();return csvDTOList;}/*** 默认情况下,CSVReader使用双反斜线(’\’)作为其转义字符。同时,CSVWriter使用双引号(’“’)作为转义字符。* 因此,反斜线字符会导致不正确的转义。在读数据时,CSVParser将忽略单个反斜线字符,因为它是转义字符。* CSVReader使用CSVParser解析CSV数据。OpenCSV还提供了一个严格遵循RFC4180标准的解析器:RFC4180Parser。* 使用RFC4180Parser解析器,CSVReader会以双引号(’“’)作为转义字符,这样就可以与CSVWriter的转义方式保持一致。* @param file* @return* @throws IOException*/@Overridepublic List<UserBehaviorsUrlLog> parseUrlByName(File file) throws IOException {RFC4180Parser rfc4180Parser = new RFC4180ParserBuilder().build();CSVReader inputStream = new CSVReaderBuilder(new InputStreamReader(new FileInputStream(file), StandardCharsets.UTF_8)).withCSVParser(rfc4180Parser).build();//InputStreamReader inputStream = new InputStreamReader(new FileInputStream(file), StandardCharsets.UTF_8);//CSVReader csvReader = new CSVReader();// 设置解析策略,csv的头和POJO属性的名称对应,也可以使用@CsvBindByName注解来指定名称HeaderColumnNameMappingStrategy strategy = new HeaderColumnNameMappingStrategy();strategy.setType(UserBehaviorsUrlLog.class);CsvToBean csvToBean = new CsvToBeanBuilder(inputStream).withMappingStrategy(strategy)//文件中使用的分割符 默认为逗号分割//.withSeparator(',').build();List<UserBehaviorsUrlLog> csvDTOList = csvToBean.parse();return csvDTOList;}
}
  • 4、相关mapper及配置文件
@Mapper
public interface UserBehaviorsUpfileLogMapperExt {/*** 读取行为日志信息,写入clickhouse* @param records* @return 落库条数*/int insertUpfileLog(@Param("records") List<UserBehaviorsUpfileLog> records);}
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE mapper PUBLIC "-//mybatis.org//DTD Mapper 3.0//EN" "http://mybatis.org/dtd/mybatis-3-mapper.dtd">
<mapper namespace="com.xxxx.mapper.ext.UserBehaviorsUpfileLogMapperExt"><sql id="Base_Column_List">(transfer_date, record_time, user, group, host_ip, dst_ip, serv, app, site, tm_type, net_action, file_name, file_size, file_type)</sql><insert id="insertUpfileLog" parameterType="com.xxxx.model.UserBehaviorsUpfileLog">INSERT INTO log.xxzx_user_behaviors_upfile_log<include refid="Base_Column_List" />VALUES<foreach collection="records" item="item" index="index"separator=",">(#{item.transfer_date,jdbcType=DATE},#{item.record_time},#{item.user},#{item.group},#{item.host_ip},#{item.dst_ip},#{item.serv},#{item.app},#{item.site},#{item.tm_type},#{item.net_action},#{item.file_name},#{item.file_size},#{item.file_type})</foreach></insert></mapper>
  • 5、clickhouse表所映射的java对象
@Data
public class UserBehaviorsUrlLog {//private String transfer_time;private Date transfer_date;@CsvBindByName(column = "record_time",required = false)private String record_time;@CsvBindByName(column = "user",required = false)private String user;@CsvBindByName(column = "group",required = false)private String group;@CsvBindByName(column = "host_ip",required = false)private String host_ip;@CsvBindByName(column = "dst_ip",required = false)private String dst_ip;@CsvBindByName(column = "serv",required = false)private String serv;@CsvBindByName(column = "app",required = false)private String app;@CsvBindByName(column = "site",required = false)private String site;@CsvBindByName(column = "tm_type",required = false)private String tm_type;@CsvBindByName(column = "net_action",required = false)private String net_action;@CsvBindByName(column = "url",required = false)private String url;@CsvBindByName(column = "DNS",required = false)private String dns;@CsvBindByName(column = "title",required = false)private String title;@CsvBindByName(column = "snapshot",required = false)private String snapshot;
}
  • 6、调用代码
.......File file = new File(fileName);//根据解压后的文件目录名称判断当前文件的类型if(fileName.indexOf(URL_LOG) != -1) {List<UserBehaviorsUrlLog> urlLogList = csvParseLogService.parseUrlByName(file);for (List<UserBehaviorsUrlLog> listSub : lists) {upfileLogMapperExt.insertUpfileLog(upfileLogList);}}......

欢迎补充,完毕!!!

这篇关于OpenCSV处理反斜线 \ ,将.csv文件映射为Java对象落库clickhouse的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/194544

相关文章

SpringBoot中SM2公钥加密、私钥解密的实现示例详解

《SpringBoot中SM2公钥加密、私钥解密的实现示例详解》本文介绍了如何在SpringBoot项目中实现SM2公钥加密和私钥解密的功能,通过使用Hutool库和BouncyCastle依赖,简化... 目录一、前言1、加密信息(示例)2、加密结果(示例)二、实现代码1、yml文件配置2、创建SM2工具

Spring WebFlux 与 WebClient 使用指南及最佳实践

《SpringWebFlux与WebClient使用指南及最佳实践》WebClient是SpringWebFlux模块提供的非阻塞、响应式HTTP客户端,基于ProjectReactor实现,... 目录Spring WebFlux 与 WebClient 使用指南1. WebClient 概述2. 核心依

Spring Boot @RestControllerAdvice全局异常处理最佳实践

《SpringBoot@RestControllerAdvice全局异常处理最佳实践》本文详解SpringBoot中通过@RestControllerAdvice实现全局异常处理,强调代码复用、统... 目录前言一、为什么要使用全局异常处理?二、核心注解解析1. @RestControllerAdvice2

Spring IoC 容器的使用详解(最新整理)

《SpringIoC容器的使用详解(最新整理)》文章介绍了Spring框架中的应用分层思想与IoC容器原理,通过分层解耦业务逻辑、数据访问等模块,IoC容器利用@Component注解管理Bean... 目录1. 应用分层2. IoC 的介绍3. IoC 容器的使用3.1. bean 的存储3.2. 方法注

Spring事务传播机制最佳实践

《Spring事务传播机制最佳实践》Spring的事务传播机制为我们提供了优雅的解决方案,本文将带您深入理解这一机制,掌握不同场景下的最佳实践,感兴趣的朋友一起看看吧... 目录1. 什么是事务传播行为2. Spring支持的七种事务传播行为2.1 REQUIRED(默认)2.2 SUPPORTS2

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》:本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

Java进程异常故障定位及排查过程

《Java进程异常故障定位及排查过程》:本文主要介绍Java进程异常故障定位及排查过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、故障发现与初步判断1. 监控系统告警2. 日志初步分析二、核心排查工具与步骤1. 进程状态检查2. CPU 飙升问题3. 内存

Python实现对阿里云OSS对象存储的操作详解

《Python实现对阿里云OSS对象存储的操作详解》这篇文章主要为大家详细介绍了Python实现对阿里云OSS对象存储的操作相关知识,包括连接,上传,下载,列举等功能,感兴趣的小伙伴可以了解下... 目录一、直接使用代码二、详细使用1. 环境准备2. 初始化配置3. bucket配置创建4. 文件上传到os

java中新生代和老生代的关系说明

《java中新生代和老生代的关系说明》:本文主要介绍java中新生代和老生代的关系说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、内存区域划分新生代老年代二、对象生命周期与晋升流程三、新生代与老年代的协作机制1. 跨代引用处理2. 动态年龄判定3. 空间分

Java设计模式---迭代器模式(Iterator)解读

《Java设计模式---迭代器模式(Iterator)解读》:本文主要介绍Java设计模式---迭代器模式(Iterator),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录1、迭代器(Iterator)1.1、结构1.2、常用方法1.3、本质1、解耦集合与遍历逻辑2、统一