使用livy提交supermap iobjects for spark任务

2024-02-25 10:18

本文主要是介绍使用livy提交supermap iobjects for spark任务,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

使用Livy提交SuperMap iObjects Spark任务

​ Livy是一个提供标准rest接口和spark集群交互的服务,从官网的介绍来看它具备以下特点:多用户多客户端(web/iMobile)的提交方式、支持提交多种编程语言(scala/java/python)的执行代码片段和执行Jar包、现有spark项目可立即使用Livy且无需任何项目的改动、同步或异步的返回执行结果、提供SparkContext的管理,总之通过restfull接口或RPC客户端库,它简化了与spark应用的交互。本文简单演示如何通过Livy提交超图spark组件的执行任务。

在这里插入图片描述

环境
  • spark-2.1.1-bin-hadoop2.7
  • hadoop-2.7.3
  • supermap iobjects for spark 901、supermap iobjects for java 901
  • Apache Livy 0.5.0-incubating (zip)
Livy配置
  • 前提已部署好spark,hadoop应用环境

  • 部署及启动

    # 解压zip
    unzip Livy-0.5.0-incubating.zip 
    # 添加Livy的conf及sh文件的配置
    cd /opt/livy-0.5.0-incubating-bin/conf
    # conf文件添加下面三个参数--其他参数参考官网
    vi livy.conf
    livy.server.host = 192.168.31.130
    livy.server.port = 8998
    livy.spark.master = spark://192.168.31.130:7077
    # sh文件添加下面三个参数--其他参数参考官网
    vi livy-env.sh
    JAVA_HOME=/opt/jdk1.8.0_151
    HADOOP_CONF_DIR=/opt/hadoop-2.7.3/etc/hadoop
    SPARK_HOME=/opt/spark-2.1.1-bin-hadoop2.7
    # 启动livy服务前,创建log文件目录,启动spark及hadoop
    mkdir logs #与bin目录同级
    ./livy-server start 
    

在这里插入图片描述

Livy与Spark交互提供了rest接口,也提供了编程语言的接口,支持spark的local、standlone、yarn集群模式,接下来我们采用简单的rest接口进行交互,使用python的request库与livy进行交互:
  • 创建session

    #由于需要依赖supermap spark组件的库,构建session时需要将依赖的jar添加到spark的jvm进程里,可以采用livy构建session提供的“jars”键来指定需要提交的jar列表。但我们采用了一种简单的方式-把依赖库com.supermap.bdt.core-9.1.0.jar直接放入spark的jars目录。
    #构建session,是一个长连接,构建前一定要把依赖库jar放入spark的jars目录。
    import json, pprint, requests, textwrap
    host = 'http://192.168.31.130:8998'
    data = {'kind': 'spark'}
    headers = {'Content-Type': 'application/json'}
    r = requests.post(host + '/sessions', data=json.dumps(data), headers=headers)
    session_url = host + r.headers['location']
    session_url
    # 构建成功,从下图可以看见id为0的session,运行状态是运行中,在spark里也能看见启动了一个应用。
    

在这里插入图片描述

在这里插入图片描述

  • 提交读取udb的任务

    # 以执行代码判断方式提交一个任务
    # 注意:supermap iobjects spark产品提供了scala和python的api,故此任务包裹的执行代码是scala执行代码。
    statements_url = session_url + '/statements'
    data = {'code': textwrap.dedent("""val filem=\"/home/yb/opt/supermap-spark-9.0.0/data/NYCData.udb\";val roadRDD = com.supermap.bdt.io.sdx.SDXReader.readFromUDB(sc,filem,\"zones\");val str = roadRDD.count();println("记录总数"+str)""")
    }
    r = requests.post(statements_url, data=json.dumps(data), headers=headers)
    r.json()
    # 任务执行结果在log里查看如截图
    

在这里插入图片描述

  • 提交读取hdfs系统上csv任务
statements_url = session_url + '/statements'
data = {'code': textwrap.dedent("""val filem=\"hdfs://192.168.31.130:9000/test/Convert.csv\";val roadRDD = com.supermap.bdt.io.simpleCSV.SimpleCSVReader.read(sc,filem);val str = roadRDD.count();println("记录总数"+str)""")
}
r = requests.post(statements_url, data=json.dumps(data), headers=headers)
r.json()
# 任务执行结果采用rest接口(session的id加statements的id)查看

在这里插入图片描述

简单的Livy入门介绍到此,至于如何提交已打包的jar文件,可以参考livy的batches批提交里的"file"和"className "参数,如需深度使用,如获取任务状态、删除session等,自行参考livy-rest-api

这篇关于使用livy提交supermap iobjects for spark任务的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/745171

相关文章

使用Python实现可恢复式多线程下载器

《使用Python实现可恢复式多线程下载器》在数字时代,大文件下载已成为日常操作,本文将手把手教你用Python打造专业级下载器,实现断点续传,多线程加速,速度限制等功能,感兴趣的小伙伴可以了解下... 目录一、智能续传:从崩溃边缘抢救进度二、多线程加速:榨干网络带宽三、速度控制:做网络的好邻居四、终端交互

Python中注释使用方法举例详解

《Python中注释使用方法举例详解》在Python编程语言中注释是必不可少的一部分,它有助于提高代码的可读性和维护性,:本文主要介绍Python中注释使用方法的相关资料,需要的朋友可以参考下... 目录一、前言二、什么是注释?示例:三、单行注释语法:以 China编程# 开头,后面的内容为注释内容示例:示例:四

Go语言数据库编程GORM 的基本使用详解

《Go语言数据库编程GORM的基本使用详解》GORM是Go语言流行的ORM框架,封装database/sql,支持自动迁移、关联、事务等,提供CRUD、条件查询、钩子函数、日志等功能,简化数据库操作... 目录一、安装与初始化1. 安装 GORM 及数据库驱动2. 建立数据库连接二、定义模型结构体三、自动迁

ModelMapper基本使用和常见场景示例详解

《ModelMapper基本使用和常见场景示例详解》ModelMapper是Java对象映射库,支持自动映射、自定义规则、集合转换及高级配置(如匹配策略、转换器),可集成SpringBoot,减少样板... 目录1. 添加依赖2. 基本用法示例:简单对象映射3. 自定义映射规则4. 集合映射5. 高级配置匹

Spring 框架之Springfox使用详解

《Spring框架之Springfox使用详解》Springfox是Spring框架的API文档工具,集成Swagger规范,自动生成文档并支持多语言/版本,模块化设计便于扩展,但存在版本兼容性、性... 目录核心功能工作原理模块化设计使用示例注意事项优缺点优点缺点总结适用场景建议总结Springfox 是

嵌入式数据库SQLite 3配置使用讲解

《嵌入式数据库SQLite3配置使用讲解》本文强调嵌入式项目中SQLite3数据库的重要性,因其零配置、轻量级、跨平台及事务处理特性,可保障数据溯源与责任明确,详细讲解安装配置、基础语法及SQLit... 目录0、惨痛教训1、SQLite3环境配置(1)、下载安装SQLite库(2)、解压下载的文件(3)、

Golang如何对cron进行二次封装实现指定时间执行定时任务

《Golang如何对cron进行二次封装实现指定时间执行定时任务》:本文主要介绍Golang如何对cron进行二次封装实现指定时间执行定时任务问题,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录背景cron库下载代码示例【1】结构体定义【2】定时任务开启【3】使用示例【4】控制台输出总结背景

使用Python绘制3D堆叠条形图全解析

《使用Python绘制3D堆叠条形图全解析》在数据可视化的工具箱里,3D图表总能带来眼前一亮的效果,本文就来和大家聊聊如何使用Python实现绘制3D堆叠条形图,感兴趣的小伙伴可以了解下... 目录为什么选择 3D 堆叠条形图代码实现:从数据到 3D 世界的搭建核心代码逐行解析细节优化应用场景:3D 堆叠图

Springboot如何正确使用AOP问题

《Springboot如何正确使用AOP问题》:本文主要介绍Springboot如何正确使用AOP问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录​一、AOP概念二、切点表达式​execution表达式案例三、AOP通知四、springboot中使用AOP导出

在Golang中实现定时任务的几种高效方法

《在Golang中实现定时任务的几种高效方法》本文将详细介绍在Golang中实现定时任务的几种高效方法,包括time包中的Ticker和Timer、第三方库cron的使用,以及基于channel和go... 目录背景介绍目的和范围预期读者文档结构概述术语表核心概念与联系故事引入核心概念解释核心概念之间的关系