《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业

本文主要是介绍《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

📋 博主简介

💖 作者简介：大家好，我是wux_labs。😜
热衷于各种主流技术，热爱数据科学、机器学习、云计算、人工智能。
通过了TiDB数据库专员（PCTA）、TiDB数据库专家（PCTP）、TiDB数据库认证SQL开发专家（PCSD）认证。
通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。
对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Databricks的使用有丰富的经验。
📝 个人主页：wux_labs，如果您对我还算满意，请关注一下吧~🔥
📝 个人社区：数据科学社区，如果您是数据科学爱好者，一起来交流吧~🔥
🎉 请支持我：欢迎大家点赞👍+收藏⭐️+吐槽📝，您的支持是我持续创作的动力~🔥

《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业

《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业
- 前言
- 创建作业
- 运行作业
- 其他类型的作业
- 结束语

《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业

前言

大家好！今天为大家分享的是《PySpark大数据分析实战》第2章第5节的内容：云服务模式Databricks介绍运行作业。

图书在：当当、京东、机械工业出版社以及各大书店有售！

除了交互式执行代码，还可以采用Job的方式运行Python脚本，修改WordCount.py脚本，去掉sc的创建、修改words.txt的路径，代码如下：

from pyspark import SparkConf, SparkContextif __name__ == '__main__':# 通过SparkContext对象读取文件fileRdd = sc.textFile("dbfs:/FileStore/tables/words.txt")# 将文件中的每一行按照空格拆分成单词wordsRdd = fileRdd.flatMap(lambda line: line.split(" "))# 将每一个单词转换为元组，wordRdd = wordsRdd.map(lambda x: (x, 1))# 根据元组的key分组，将value相加resultRdd = wordRdd.reduceByKey(lambda a, b: a + b)# 将结果收集到Driver并打印输出print(resultRdd.collect())