spark读文件生成df元素长度超过22不想创建schema偷懒方法可真够懒得哎φ(*￣0￣)

本文主要是介绍spark读文件生成df元素长度超过22不想创建schema偷懒方法可真够懒得哎φ(*￣0￣)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

问题描述：

当我们使用spark读取文件时用如下方式可以简便读取并快速形成df进行相关操作
在这里插入图片描述
当读取其他类文本时如textFile通常想到sc.textFile("")使用map进行分割，创建schema表结构；偷懒时一般会将列元素放到元组当中如下：

    val dnbgx_df = sc.textFile("hdfs://jzy1:9000/workdata/clean/jlddnbgx_25").map(x=>{val all = x.split("\t")(all(0),all(1))}).toDF("all","timestamp").dropDuplicates("all","timestamp")

但是scala元组最大长度为22，生产环境很多时候元素都会超过22，这时候不得不去创建schema

解决方案

采用以下方法，或者创建样例类case class的形式

val spark = SparkSession.builder().appName("clean02").master("local[*]").getOrCreate()val sc = spark.sparkContextimport spark.implicits._
spark.read.textFile("hdfs://jzy1:9000/workdata/clean/rdj/24").map(_.split("\t")).select($"value"(0).cast(StringType).as("YXDNBBS"),$"value"(1).cast(StringType).as("SJSJ"),$"value"(2).cast(StringType).as("QZJSSJ"),$"value"(3).cast(StringType).as("ZXYGZ"),$"value"(4).cast(StringType).as("ZXYGF"),$"value"(5).cast(StringType).as("ZXYGP"),$"value"(6).cast(StringType).as("ZXYGG"),$"value"(7).cast(StringType).as("ZXYGJ"),$"value"(8).cast(StringType).as("ZXWGZ"),$"value"(9).cast(StringType).as("ZXWGF"),$"value"(10).cast(StringType).as("ZXWGP"),$"value"(11).cast(StringType).as("ZXWGG"),$"value"(12).cast(StringType).as("ZXWGJ"),$"value"(13).cast(StringType).as("FXYGZ"),$"value"(14).cast(StringType).as("FXYGF"),$"value"(15).cast(StringType).as("FXYGP"),$"value"(16).cast(StringType).as("FXYGG"),$"value"(17).cast(StringType).as("FXYGJ"),$"value"(18).cast(StringType).as("FXWGZ"),$"value"(19).cast(StringType).as("FXWGF"),$"value"(20).cast(StringType).as("FXWGP"),$"value"(21).cast(StringType).as("FXWGG"),$"value"(22).cast(StringType).as("FXWGJ"),$"value"(23).cast(StringType).as("YXXWGZ"),$"value"(24).cast(StringType).as("EXXWGZ"),$"value"(25).cast(StringType).as("SAXXWGZ"),$"value"(26).cast(StringType).as("SIXXWGZ"),$"value"(27).cast(StringType).as("SJLYDM"),$"value"(28).cast(StringType).as("timestamp")).show(20)

输出样式：
在这里插入图片描述

这篇关于spark读文件生成df元素长度超过22不想创建schema偷懒方法可真够懒得哎φ(*￣0￣)的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

原文地址:https://blog.csdn.net/weixin_42487460/article/details/109961234
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.chinasem.cn/article/287496。如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈，一经查实，立即删除！我们的邮箱：23002807@qq.com

spark读文件生成df元素长度超过22不想创建schema偷懒方法可真够懒得哎φ(*￣0￣)

问题描述：

解决方案

相关文章

MySQL批量替换数据库字符集的实用方法(附详细代码)

Oracle Scheduler任务故障诊断方法实战指南

Java 单元测试之Mockito 模拟静态方法与私有方法最佳实践

使用Go调用第三方API的方法详解

React 记忆缓存的三种方法实现

Git打标签从本地创建到远端推送的详细流程

Vue3 如何通过json配置生成查询表单

在Android中使用WebView在线查看PDF文件的方法示例

Java中字符编码问题的解决方法详解

PHP轻松处理千万行数据的方法详解

spark读文件生成df元素长度超过22不想创建schema偷懒方法 可真够懒得 哎φ(*￣0￣)

问题描述：

解决方案

相关文章

spark读文件生成df元素长度超过22不想创建schema偷懒方法可真够懒得哎φ(*￣0￣)