2024.1.9 Spark SQL day06 homework

本文主要是介绍2024.1.9 Spark SQL day06 homework，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一. Spark SQL中数据清洗的API有哪些，各自作用是什么？

二. 设置Spark SQL的shuffle分区数的方式有哪几种

三. 数据写出到数据库需要注意什么?

四. Spark程序运行集群分类

一. Spark SQL中数据清洗的API有哪些，各自作用是什么？

1. 去重

                Dorpduplicate: 桌度仆力K

        init_df.dropDuplicates().show()
        init_df.dropDuplicates(subset=[字段1,字段2]).show()

如果没有指定subset,那么就会对一整行的数据进行比对, 如果全部都相同,那么就删除

2. 去除空值

                        dropna : 桌那

          init_df.dropna(thresh=2,subset=["字段1,字段2"]).show()
          init_df.dropna(thresh=2).show()

                init_df.dropna().show()

如果不传参数,只要有一个字段为null就删除全部

如果制定了subset,那么检查的范围就限定在subset里

thresh就是进一步指定范围的数值,至少有thresh个值不为空,才不会被删除

3. 填充替换

                        fillna: feel那

            init_df.fillna(value=999).show()
        init_df.fillna(value=999,subset=["字段1","字段2"]).show()
        init_df.fillna(value={"{"name":"未知姓名","age":100}).show()

                fillna(value,subset):替换缺失值数据

value(是要替换的内容) , subset是要替换的范围 ,常用的是value = 字典类型的形式

二. 设置Spark SQL的shuffle分区数的方式有哪几种

方式一:

全局设置: Spark.sql.shuffle.Partitions 数量

方式二:

动态设置shuffle分区数量 : ./spark-submit --conf "spark.sql.shuffle.partitions=数量"

方式三:

写死分区数: sparkSession.conf.set('spark.sql.shuffle.partitions',数量)

三. 数据写出到数据库需要注意什么?

中文乱码问题。需要设置数据库编码，以及在连接URL中指定编码参数

?useUnicode=true&characterEncoding=utf-8

四. Spark程序运行集群分类

Spark 集群 : Spark自带的集群 , 也称为Standalone

Yarn集群:Spark程序运行在Yarn上

这篇关于2024.1.9 Spark SQL day06 homework的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

2024.1.9 Spark SQL day06 homework

一. Spark SQL中数据清洗的API有哪些，各自作用是什么？

二. 设置Spark SQL的shuffle分区数的方式有哪几种

三. 数据写出到数据库需要注意什么?

四. Spark程序运行集群分类

相关文章

MySQL中On duplicate key update的实现示例

MySQL分库分表的实践示例

Python与MySQL实现数据库实时同步的详细步骤

使用shardingsphere实现mysql数据库分片方式

MySQL 表空却 ibd 文件过大的问题及解决方法

Mac电脑如何通过 IntelliJ IDEA 远程连接 MySQL

MySQL的配置文件详解及实例代码

MySQL中查询和展示LONGBLOB类型数据的技巧总结

Go语言连接MySQL数据库执行基本的增删改查

MySQL按时间维度对亿级数据表进行平滑分表