spark读文件生成df元素长度超过22不想创建schema偷懒方法 可真够懒得 哎φ(* ̄0 ̄)

本文主要是介绍spark读文件生成df元素长度超过22不想创建schema偷懒方法 可真够懒得 哎φ(* ̄0 ̄),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

问题描述:

当我们使用spark读取文件时用如下方式可以简便读取并快速形成df进行相关操作
在这里插入图片描述
当读取其他类文本时如textFile通常想到sc.textFile("")使用map进行分割,创建schema表结构;偷懒时一般会将列元素放到元组当中如下:

    val dnbgx_df = sc.textFile("hdfs://jzy1:9000/workdata/clean/jlddnbgx_25").map(x=>{val all = x.split("\t")(all(0),all(1))}).toDF("all","timestamp").dropDuplicates("all","timestamp")

但是scala元组最大长度为22,生产环境很多时候元素都会超过22,这时候不得不去创建schema

解决方案

采用以下方法,或者创建样例类case class的形式

val spark = SparkSession.builder().appName("clean02").master("local[*]").getOrCreate()val sc = spark.sparkContextimport spark.implicits._
spark.read.textFile("hdfs://jzy1:9000/workdata/clean/rdj/24").map(_.split("\t")).select($"value"(0).cast(StringType).as("YXDNBBS"),$"value"(1).cast(StringType).as("SJSJ"),$"value"(2).cast(StringType).as("QZJSSJ"),$"value"(3).cast(StringType).as("ZXYGZ"),$"value"(4).cast(StringType).as("ZXYGF"),$"value"(5).cast(StringType).as("ZXYGP"),$"value"(6).cast(StringType).as("ZXYGG"),$"value"(7).cast(StringType).as("ZXYGJ"),$"value"(8).cast(StringType).as("ZXWGZ"),$"value"(9).cast(StringType).as("ZXWGF"),$"value"(10).cast(StringType).as("ZXWGP"),$"value"(11).cast(StringType).as("ZXWGG"),$"value"(12).cast(StringType).as("ZXWGJ"),$"value"(13).cast(StringType).as("FXYGZ"),$"value"(14).cast(StringType).as("FXYGF"),$"value"(15).cast(StringType).as("FXYGP"),$"value"(16).cast(StringType).as("FXYGG"),$"value"(17).cast(StringType).as("FXYGJ"),$"value"(18).cast(StringType).as("FXWGZ"),$"value"(19).cast(StringType).as("FXWGF"),$"value"(20).cast(StringType).as("FXWGP"),$"value"(21).cast(StringType).as("FXWGG"),$"value"(22).cast(StringType).as("FXWGJ"),$"value"(23).cast(StringType).as("YXXWGZ"),$"value"(24).cast(StringType).as("EXXWGZ"),$"value"(25).cast(StringType).as("SAXXWGZ"),$"value"(26).cast(StringType).as("SIXXWGZ"),$"value"(27).cast(StringType).as("SJLYDM"),$"value"(28).cast(StringType).as("timestamp")).show(20)

输出样式:
在这里插入图片描述

这篇关于spark读文件生成df元素长度超过22不想创建schema偷懒方法 可真够懒得 哎φ(* ̄0 ̄)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/weixin_42487460/article/details/109961234
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/287496

相关文章

Linux系统中查询JDK安装目录的几种常用方法

《Linux系统中查询JDK安装目录的几种常用方法》:本文主要介绍Linux系统中查询JDK安装目录的几种常用方法,方法分别是通过update-alternatives、Java命令、环境变量及目... 目录方法 1:通过update-alternatives查询(推荐)方法 2:检查所有已安装的 JDK方

SQL Server安装时候没有中文选项的解决方法

《SQLServer安装时候没有中文选项的解决方法》用户安装SQLServer时界面全英文,无中文选项,通过修改安装设置中的国家或地区为中文中国,重启安装程序后界面恢复中文,解决了问题,对SQLSe... 你是不是在安装SQL Server时候发现安装界面和别人不同,并且无论如何都没有中文选项?这个问题也

Java Thread中join方法使用举例详解

《JavaThread中join方法使用举例详解》JavaThread中join()方法主要是让调用改方法的thread完成run方法里面的东西后,在执行join()方法后面的代码,这篇文章主要介绍... 目录前言1.join()方法的定义和作用2.join()方法的三个重载版本3.join()方法的工作原

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

《在MySQL中实现冷热数据分离的方法及使用场景底层原理解析》MySQL冷热数据分离通过分表/分区策略、数据归档和索引优化,将频繁访问的热数据与冷数据分开存储,提升查询效率并降低存储成本,适用于高并发... 目录实现冷热数据分离1. 分表策略2. 使用分区表3. 数据归档与迁移在mysql中实现冷热数据分

Spring Boot从main方法到内嵌Tomcat的全过程(自动化流程)

《SpringBoot从main方法到内嵌Tomcat的全过程(自动化流程)》SpringBoot启动始于main方法,创建SpringApplication实例,初始化上下文,准备环境,刷新容器并... 目录1. 入口:main方法2. SpringApplication初始化2.1 构造阶段3. 运行阶

Olingo分析和实践之ODataImpl详细分析(重要方法详解)

《Olingo分析和实践之ODataImpl详细分析(重要方法详解)》ODataImpl.java是ApacheOlingoOData框架的核心工厂类,负责创建序列化器、反序列化器和处理器等组件,... 目录概述主要职责类结构与继承关系核心功能分析1. 序列化器管理2. 反序列化器管理3. 处理器管理重要方

Python错误AttributeError: 'NoneType' object has no attribute问题的彻底解决方法

《Python错误AttributeError:NoneTypeobjecthasnoattribute问题的彻底解决方法》在Python项目开发和调试过程中,经常会碰到这样一个异常信息... 目录问题背景与概述错误解读:AttributeError: 'NoneType' object has no at

postgresql使用UUID函数的方法

《postgresql使用UUID函数的方法》本文给大家介绍postgresql使用UUID函数的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录PostgreSQL有两种生成uuid的方法。可以先通过sql查看是否已安装扩展函数,和可以安装的扩展函数

Java中Arrays类和Collections类常用方法示例详解

《Java中Arrays类和Collections类常用方法示例详解》本文总结了Java中Arrays和Collections类的常用方法,涵盖数组填充、排序、搜索、复制、列表转换等操作,帮助开发者高... 目录Arrays.fill()相关用法Arrays.toString()Arrays.sort()A

Nginx安全防护的多种方法

《Nginx安全防护的多种方法》在生产环境中,需要隐藏Nginx的版本号,以避免泄漏Nginx的版本,使攻击者不能针对特定版本进行攻击,下面就来介绍一下Nginx安全防护的方法,感兴趣的可以了解一下... 目录核心安全配置1.编译安装 Nginx2.隐藏版本号3.限制危险请求方法4.请求限制(CC攻击防御)