spark读文件生成df元素长度超过22不想创建schema偷懒方法 可真够懒得 哎φ(* ̄0 ̄)

本文主要是介绍spark读文件生成df元素长度超过22不想创建schema偷懒方法 可真够懒得 哎φ(* ̄0 ̄),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

问题描述:

当我们使用spark读取文件时用如下方式可以简便读取并快速形成df进行相关操作
在这里插入图片描述
当读取其他类文本时如textFile通常想到sc.textFile("")使用map进行分割,创建schema表结构;偷懒时一般会将列元素放到元组当中如下:

    val dnbgx_df = sc.textFile("hdfs://jzy1:9000/workdata/clean/jlddnbgx_25").map(x=>{val all = x.split("\t")(all(0),all(1))}).toDF("all","timestamp").dropDuplicates("all","timestamp")

但是scala元组最大长度为22,生产环境很多时候元素都会超过22,这时候不得不去创建schema

解决方案

采用以下方法,或者创建样例类case class的形式

val spark = SparkSession.builder().appName("clean02").master("local[*]").getOrCreate()val sc = spark.sparkContextimport spark.implicits._
spark.read.textFile("hdfs://jzy1:9000/workdata/clean/rdj/24").map(_.split("\t")).select($"value"(0).cast(StringType).as("YXDNBBS"),$"value"(1).cast(StringType).as("SJSJ"),$"value"(2).cast(StringType).as("QZJSSJ"),$"value"(3).cast(StringType).as("ZXYGZ"),$"value"(4).cast(StringType).as("ZXYGF"),$"value"(5).cast(StringType).as("ZXYGP"),$"value"(6).cast(StringType).as("ZXYGG"),$"value"(7).cast(StringType).as("ZXYGJ"),$"value"(8).cast(StringType).as("ZXWGZ"),$"value"(9).cast(StringType).as("ZXWGF"),$"value"(10).cast(StringType).as("ZXWGP"),$"value"(11).cast(StringType).as("ZXWGG"),$"value"(12).cast(StringType).as("ZXWGJ"),$"value"(13).cast(StringType).as("FXYGZ"),$"value"(14).cast(StringType).as("FXYGF"),$"value"(15).cast(StringType).as("FXYGP"),$"value"(16).cast(StringType).as("FXYGG"),$"value"(17).cast(StringType).as("FXYGJ"),$"value"(18).cast(StringType).as("FXWGZ"),$"value"(19).cast(StringType).as("FXWGF"),$"value"(20).cast(StringType).as("FXWGP"),$"value"(21).cast(StringType).as("FXWGG"),$"value"(22).cast(StringType).as("FXWGJ"),$"value"(23).cast(StringType).as("YXXWGZ"),$"value"(24).cast(StringType).as("EXXWGZ"),$"value"(25).cast(StringType).as("SAXXWGZ"),$"value"(26).cast(StringType).as("SIXXWGZ"),$"value"(27).cast(StringType).as("SJLYDM"),$"value"(28).cast(StringType).as("timestamp")).show(20)

输出样式:
在这里插入图片描述

这篇关于spark读文件生成df元素长度超过22不想创建schema偷懒方法 可真够懒得 哎φ(* ̄0 ̄)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/287496

相关文章

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

python获取指定名字的程序的文件路径的两种方法

《python获取指定名字的程序的文件路径的两种方法》本文主要介绍了python获取指定名字的程序的文件路径的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要... 最近在做项目,需要用到给定一个程序名字就可以自动获取到这个程序在Windows系统下的绝对路径,以下

Java使用Javassist动态生成HelloWorld类

《Java使用Javassist动态生成HelloWorld类》Javassist是一个非常强大的字节码操作和定义库,它允许开发者在运行时创建新的类或者修改现有的类,本文将简单介绍如何使用Javass... 目录1. Javassist简介2. 环境准备3. 动态生成HelloWorld类3.1 创建CtC

JavaScript中的高级调试方法全攻略指南

《JavaScript中的高级调试方法全攻略指南》什么是高级JavaScript调试技巧,它比console.log有何优势,如何使用断点调试定位问题,通过本文,我们将深入解答这些问题,带您从理论到实... 目录观点与案例结合观点1观点2观点3观点4观点5高级调试技巧详解实战案例断点调试:定位变量错误性能分

Python中 try / except / else / finally 异常处理方法详解

《Python中try/except/else/finally异常处理方法详解》:本文主要介绍Python中try/except/else/finally异常处理方法的相关资料,涵... 目录1. 基本结构2. 各部分的作用tryexceptelsefinally3. 执行流程总结4. 常见用法(1)多个e

JavaScript中比较两个数组是否有相同元素(交集)的三种常用方法

《JavaScript中比较两个数组是否有相同元素(交集)的三种常用方法》:本文主要介绍JavaScript中比较两个数组是否有相同元素(交集)的三种常用方法,每种方法结合实例代码给大家介绍的非常... 目录引言:为什么"相等"判断如此重要?方法1:使用some()+includes()(适合小数组)方法2

504 Gateway Timeout网关超时的根源及完美解决方法

《504GatewayTimeout网关超时的根源及完美解决方法》在日常开发和运维过程中,504GatewayTimeout错误是常见的网络问题之一,尤其是在使用反向代理(如Nginx)或... 目录引言为什么会出现 504 错误?1. 探索 504 Gateway Timeout 错误的根源 1.1 后端

Python从Word文档中提取图片并生成PPT的操作代码

《Python从Word文档中提取图片并生成PPT的操作代码》在日常办公场景中,我们经常需要从Word文档中提取图片,并将这些图片整理到PowerPoint幻灯片中,手动完成这一任务既耗时又容易出错,... 目录引言背景与需求解决方案概述代码解析代码核心逻辑说明总结引言在日常办公场景中,我们经常需要从 W

MySQL 表空却 ibd 文件过大的问题及解决方法

《MySQL表空却ibd文件过大的问题及解决方法》本文给大家介绍MySQL表空却ibd文件过大的问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考... 目录一、问题背景:表空却 “吃满” 磁盘的怪事二、问题复现:一步步编程还原异常场景1. 准备测试源表与数据

python 线程池顺序执行的方法实现

《python线程池顺序执行的方法实现》在Python中,线程池默认是并发执行任务的,但若需要实现任务的顺序执行,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋... 目录方案一:强制单线程(伪顺序执行)方案二:按提交顺序获取结果方案三:任务间依赖控制方案四:队列顺序消