安装Hadoop及Spark for Ubuntu 16.04

2024-06-12 20:58
文章标签 ubuntu 安装 hadoop spark 16.04

本文主要是介绍安装Hadoop及Spark for Ubuntu 16.04,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

安装JDK

  • 下载jdk(以jdk-8u91-Linux-x64.tar.gz为例)

  • 新建文件夹

    sudo mkdir /usr/lib/jvm

  • 解压下载的jdk文件并移动到新建的文件夹下

    sudo tar -xzvf jdk-8u91-linux-x64.tar.gz -C /usr/lib/jvm

  • 进入jvm文件夹并重命名解压出来的文件夹

    <code class="hljs dos"><span class="hljs-built_in">cd</span> /usr/lib/jvm
    sudo mv jdk1.<span class="hljs-number">8</span>.<span class="hljs-number">0</span>_91 jdk</code>
  • 添加环境变量

    <code class="hljs bash">sudo vim /etc/profile
    <span class="hljs-comment"># 添加如下配置</span>
    <span class="hljs-built_in">export</span> JAVA_HOME=/usr/lib/jvm/jdk
    <span class="hljs-built_in">export</span> CLASSPATH=.:<span class="hljs-variable">$JAVA_HOME</span>/lib:<span class="hljs-variable">$JAVA_HOME</span>/jre/lib:<span class="hljs-variable">$CLASSPATH</span>
    <span class="hljs-built_in">export</span> PATH=<span class="hljs-variable">$JAVA_HOME</span>/bin:<span class="hljs-variable">$JAVA_HOME</span>/jre/bin:<span class="hljs-variable">$PATH</span></code>
  • 使配置生效

    source /etc/profile

  • 测试

    Java -version

安装Scala

  • 类似于jdk的安装

  • 下载Scala(以scala-2.11.8.tgz为例)

  • 解压下载的scala文件

    sudo tar -xzvf scala-2.11.8.tgz -C /usr/local

  • 重命名

    <code class="hljs bash"><span class="hljs-built_in">cd</span> /usr/<span class="hljs-built_in">local</span>
    sudo mv scala-2.11.8 scala</code>
  • 添加环境变量

    <code class="hljs bash">sudo vim /etc/profile
    <span class="hljs-comment"># 在最后添加下面内容</span>
    <span class="hljs-built_in">export</span> SCALA_HOME=/usr/<span class="hljs-built_in">local</span>/scala
    <span class="hljs-built_in">export</span> PATH=<span class="hljs-variable">$SCALA_HOME</span>/bin:<span class="hljs-variable">$PATH</span></code>
  • 使配置生效

    source /etc/profile

  • 测试

    scala -version

安装Hadoop

Spark默认使用HDFS充当持久化层,所以需要安装Hadoop,当然也可以不安装

参考

  • 安装单机/伪分布式
  • 安装集群

安装

  • 安装ssh

    sudo apt install openssh-server

  • 配置ssh无密登陆

    <code class="hljs ruby">ssh-keygen -t rsa   <span class="hljs-comment"># 一直回车</span>
    cat ~<span class="hljs-regexp">/.ssh/id</span>_rsa.pub <span class="hljs-meta">>> </span>~<span class="hljs-regexp">/.ssh/authorized</span>_keys</code>
  • 测试ssh无密登陆

    ssh localhost # 如果不提示输入密码则配置成功

  • 下载Hadoop(以hadoop-2.7.2.tar.gz为例)

  • 解压

    sudo tar -xzvf hadoop-2.7.2.tar.gz -C /usr/local

  • 重命名

    <code class="hljs bash"><span class="hljs-built_in">cd</span> /usr/<span class="hljs-built_in">local</span>
    sudo mv hadoop-2.7.2 hadoop</code>
  • 修改权限

    <code class="hljs perl">cd /usr/<span class="hljs-keyword">local</span>
    sudo <span class="hljs-keyword">chown</span> -R yourusername:yourusername hadoop</code>
  • 配置环境变量

    <code class="hljs bash">sudo vim /etc/profile
    <span class="hljs-comment"># 在最后添加下面代码</span>
    <span class="hljs-built_in">export</span> HADOOP_HOME=/usr/<span class="hljs-built_in">local</span>/hadoop
    <span class="hljs-built_in">export</span> PATH=<span class="hljs-variable">$HADOOP_HOME</span>/bin:<span class="hljs-variable">$HADOOP_HOME</span>/sbin:<span class="hljs-variable">$PATH</span></code>
  • 测试

    hadoop version

Hadoop伪分布式配置

  • 修改配置文件core-site.xml

    <code class="hljs dts">cd <span class="hljs-meta-keyword">/usr/</span>local/hadoop
    vim .<span class="hljs-meta-keyword">/etc/</span>hadoop/core-site.xml
    <span class="hljs-meta"># 修改为如下</span>
    <span class="hljs-params"><configuration></span><span class="hljs-params"><property></span><span class="hljs-params"><name></span>hadoop.tmp.dir<span class="hljs-params"></name></span><span class="hljs-params"><value></span>file:<span class="hljs-meta-keyword">/usr/</span>local<span class="hljs-meta-keyword">/hadoop/</span>tmp<span class="hljs-params"></value></span><span class="hljs-params"><description></span>Abase for other temporary directories.<span class="hljs-params"></description></span><span class="hljs-params"></property></span><span class="hljs-params"><property></span><span class="hljs-params"><name></span>fs.defaultFS<span class="hljs-params"></name></span><span class="hljs-params"><value></span>hdfs:<span class="hljs-comment">//localhost:9000</value></span><span class="hljs-params"></property></span>
    <span class="hljs-params"></configuration></span></code>
  • 修改配置文件hdfs-site.xml

    <code class="hljs dts">cd <span class="hljs-meta-keyword">/usr/</span>local/hadoop
    vim .<span class="hljs-meta-keyword">/etc/</span>hadoop<span class="hljs-meta-keyword">/hdfs-site/</span>xml
    <span class="hljs-meta"># 修改为如下</span>
    <span class="hljs-params"><configuration></span><span class="hljs-params"><property></span><span class="hljs-params"><name></span>dfs.replication<span class="hljs-params"></name></span><span class="hljs-params"><value></span><span class="hljs-number">1</span><span class="hljs-params"></value></span><span class="hljs-params"></property></span><span class="hljs-params"><property></span><span class="hljs-params"><name></span>dfs.namenode.name.dir<span class="hljs-params"></name></span><span class="hljs-params"><value></span>file:<span class="hljs-meta-keyword">/usr/</span>local<span class="hljs-meta-keyword">/hadoop/</span>tmp<span class="hljs-meta-keyword">/dfs/</span>name<span class="hljs-params"></value></span><span class="hljs-params"></property></span><span class="hljs-params"><property></span><span class="hljs-params"><name></span>dfs.datanode.data.dir<span class="hljs-params"></name></span><span class="hljs-params"><value></span>file:<span class="hljs-meta-keyword">/usr/</span>local<span class="hljs-meta-keyword">/hadoop/</span>tmp<span class="hljs-meta-keyword">/dfs/</span>data<span class="hljs-params"></value></span><span class="hljs-params"></property></span>
    <span class="hljs-params"></configuration></span></code>
  • 修改配置文件hadoop-env.sh

    <code class="hljs dts">cd <span class="hljs-meta-keyword">/usr/</span>local/hadoop
    vim .<span class="hljs-meta-keyword">/etc/</span>hadoop/hadoop-env.sh
    <span class="hljs-meta"># 将 export JAVA_HOME=${JAVA_HOME} 更改为:</span>
    export JAVA_HOME=<span class="hljs-meta-keyword">/usr/</span>lib<span class="hljs-meta-keyword">/jvm/</span>jdk</code>
  • 执行NameNode格式化

    hdfs namenode -format

  • 运行

    start-dfs.sh

  • 测试

    jps

    有如下几个进程

    <code class="hljs basic"><span class="hljs-symbol">5939 </span>Jps
    <span class="hljs-symbol">5636 </span>DataNode
    <span class="hljs-symbol">5493 </span>NameNode
    <span class="hljs-symbol">5814 </span>SecondaryNameNode</code>
  • 通过浏览器查看

    在浏览器中输入一下地址:localhost:50070

配置YARN

  • 修改配置文件mapred-site.xml

    <code class="hljs dts">cd <span class="hljs-meta-keyword">/usr/</span>local/hadoop
    cp .<span class="hljs-meta-keyword">/etc/</span>hadoop/mapred-site.xml.template .<span class="hljs-meta-keyword">/etc/</span>hadoop/mapred-site.xml
    vim .<span class="hljs-meta-keyword">/etc/</span>hadoop/mapred-site.xml
    <span class="hljs-meta"># 修改为如下配置</span>
    <span class="hljs-params"><configuration></span><span class="hljs-params"><property></span><span class="hljs-params"><name></span>mapreduce.framework.name<span class="hljs-params"></name></span><span class="hljs-params"><value></span>yarn<span class="hljs-params"></value></span><span class="hljs-params"></property></span>
    <span class="hljs-params"></configuration></span></code>
  • 修改配置文件yarn-site.xml

    <code class="hljs dts">cd <span class="hljs-meta-keyword">/usr/</span>local/hadoop
    vim .<span class="hljs-meta-keyword">/etc/</span>hadoop/yarn-site.xml
    <span class="hljs-meta"># 修改为以下配置</span>
    <span class="hljs-params"><configuration></span><span class="hljs-params"><property></span><span class="hljs-params"><name></span>yarn.nodemanager.aux-services<span class="hljs-params"></name></span><span class="hljs-params"><value></span>mapreduce_shuffle<span class="hljs-params"></value></span><span class="hljs-params"></property></span>
    <span class="hljs-params"></configuration></span></code>
  • 编写启动脚本

    <code class="hljs bash"><span class="hljs-meta">#!/bin/bash</span>
    <span class="hljs-comment"># 启动hadoop</span>
    start-dfs.sh
    <span class="hljs-comment"># 启动yarn</span>
    start-yarn.sh
    <span class="hljs-comment"># 启动历史服务器,以便在Web中查看任务运行情况</span>
    mr-jobhistory-daemon.sh start historyserver</code>
  • 编写停止脚本

    <code class="hljs bash"><span class="hljs-meta">#!/bin/bash</span>
    <span class="hljs-comment"># 停止历史服务器</span>
    mr-jobhistory-daemon.sh stop historyserver
    <span class="hljs-comment"># 停止yarn</span>
    stop-yarn.sh
    <span class="hljs-comment"># 停止hadoop</span>
    stop-dfs.sh</code>
  • 通过 Web 界面查看任务的运行情况

    浏览器中输入地址:localhost:8088

安装Spark

  • 下载spark(以spark-2.0.0-bin-hadoop2.7.tgz为例)

  • 解压下载的spark文件

    sudo tar -zxf spark-2.0.0-bin-hadoop2.7.tgz -C /usr/local

  • 重命名

    <code class="hljs bash"><span class="hljs-built_in">cd</span> /usr/<span class="hljs-built_in">local</span>
    sudo mv spark-2.0.0-bin-hadoop2.7 spark</code>
  • 添加环境变量

    <code class="hljs bash">sudo vim /etc/profile
    <span class="hljs-comment"># 在最后添加下面内容</span>
    <span class="hljs-built_in">export</span> SPARK_HOME=/usr/<span class="hljs-built_in">local</span>/spark
    <span class="hljs-built_in">export</span> PATH=<span class="hljs-variable">$SPARK_HOME</span>/bin:<span class="hljs-variable">$SPARK_HOME</span>/sbin:<span class="hljs-variable">$PATH</span></code>
  • 修改一下权限

    <code class="hljs perl">cd /usr/<span class="hljs-keyword">local</span>
    sudo <span class="hljs-keyword">chown</span> -R yourusername:yourusername ./spark</code>
  • 拷贝配置文件

    <code class="hljs dts">cd <span class="hljs-meta-keyword">/usr/</span>local/spark
    cp .<span class="hljs-meta-keyword">/conf/</span>spark-env.sh.template .<span class="hljs-meta-keyword">/conf/</span>spark-env.sh</code>
  • 修改配置文件

    <code class="hljs dts">cd <span class="hljs-meta-keyword">/usr/</span>loca/spark
    vim .<span class="hljs-meta-keyword">/conf/</span>spark-env.sh
    <span class="hljs-meta"># 添加下面一行</span>
    export SPARK_DIST_CLASSPATH=$(<span class="hljs-meta-keyword">/usr/</span>local<span class="hljs-meta-keyword">/hadoop/</span>bin/hadoop classpath)
    export JAVA_HOME=<span class="hljs-meta-keyword">/usr/</span>lib<span class="hljs-meta-keyword">/jvm/</span>jdk</code>
  • 运行简单示例

    /usr/local/spark/bin/run-example SparkPi 2>&1 | grep "Pi is roughly"

  • 启动Spark

    /usr/local/spark/sbin/start-all.sh

  • 编写脚本

    启动Hadoop以及Spark

    <code class="hljs bash"><span class="hljs-meta">#!/bin/bash</span>
    <span class="hljs-comment"># 启动Hadoop以及yarn</span>
    start-dfs.sh
    start-yarn.sh
    <span class="hljs-comment"># 启动历史服务器</span>
    mr-jobhistory-daemon.sh start historyserver
    <span class="hljs-comment"># 启动Spark</span>
    /usr/<span class="hljs-built_in">local</span>/spark/sbin/start-all.sh</code>

    停止Hadoop以及Spark

    <code class="hljs bash"><span class="hljs-meta">#!/bin/bash</span>
    <span class="hljs-comment"># 停止Spark</span>
    stop-dfs.sh
    stop-yarn.sh
    <span class="hljs-comment"># 停止历史服务器</span>
    mr-jobhistory-daemon.sh stop historyserver
    <span class="hljs-comment"># 停止Hadoop以及yarn</span>
    /usr/<span class="hljs-built_in">local</span>/hadoop/sbin/stop-all.sh</code>
  • 通过WEB页面查看

    浏览器中输入地址:localhost:8080

这篇关于安装Hadoop及Spark for Ubuntu 16.04的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1055322

相关文章

Linux系统中查询JDK安装目录的几种常用方法

《Linux系统中查询JDK安装目录的几种常用方法》:本文主要介绍Linux系统中查询JDK安装目录的几种常用方法,方法分别是通过update-alternatives、Java命令、环境变量及目... 目录方法 1:通过update-alternatives查询(推荐)方法 2:检查所有已安装的 JDK方

SQL Server安装时候没有中文选项的解决方法

《SQLServer安装时候没有中文选项的解决方法》用户安装SQLServer时界面全英文,无中文选项,通过修改安装设置中的国家或地区为中文中国,重启安装程序后界面恢复中文,解决了问题,对SQLSe... 你是不是在安装SQL Server时候发现安装界面和别人不同,并且无论如何都没有中文选项?这个问题也

2025版mysql8.0.41 winx64 手动安装详细教程

《2025版mysql8.0.41winx64手动安装详细教程》本文指导Windows系统下MySQL安装配置,包含解压、设置环境变量、my.ini配置、初始化密码获取、服务安装与手动启动等步骤,... 目录一、下载安装包二、配置环境变量三、安装配置四、启动 mysql 服务,修改密码一、下载安装包安装地

Redis MCP 安装与配置指南

《RedisMCP安装与配置指南》本文将详细介绍如何安装和配置RedisMCP,包括快速启动、源码安装、Docker安装、以及相关的配置参数和环境变量设置,感兴趣的朋友一起看看吧... 目录一、Redis MCP 简介二、安www.chinasem.cn装 Redis MCP 服务2.1 快速启动(推荐)2.

在macOS上安装jenv管理JDK版本的详细步骤

《在macOS上安装jenv管理JDK版本的详细步骤》jEnv是一个命令行工具,正如它的官网所宣称的那样,它是来让你忘记怎么配置JAVA_HOME环境变量的神队友,:本文主要介绍在macOS上安装... 目录前言安装 jenv添加 JDK 版本到 jenv切换 JDK 版本总结前言China编程在开发 Java

Linux下在线安装启动VNC教程

《Linux下在线安装启动VNC教程》本文指导在CentOS7上在线安装VNC,包含安装、配置密码、启动/停止、清理重启步骤及注意事项,强调需安装VNC桌面以避免黑屏,并解决端口冲突和目录权限问题... 目录描述安装VNC安装 VNC 桌面可能遇到的问题总结描js述linux中的VNC就类似于Window

虚拟机Centos7安装MySQL数据库实践

《虚拟机Centos7安装MySQL数据库实践》用户分享在虚拟机安装MySQL的全过程及常见问题解决方案,包括处理GPG密钥、修改密码策略、配置远程访问权限及防火墙设置,最终通过关闭防火墙和停止Net... 目录安装mysql数据库下载wget命令下载MySQL安装包安装MySQL安装MySQL服务安装完成

Ubuntu 24.04启用root图形登录的操作流程

《Ubuntu24.04启用root图形登录的操作流程》Ubuntu默认禁用root账户的图形与SSH登录,这是为了安全,但在某些场景你可能需要直接用root登录GNOME桌面,本文以Ubuntu2... 目录一、前言二、准备工作三、设置 root 密码四、启用图形界面 root 登录1. 修改 GDM 配

JAVA中安装多个JDK的方法

《JAVA中安装多个JDK的方法》文章介绍了在Windows系统上安装多个JDK版本的方法,包括下载、安装路径修改、环境变量配置(JAVA_HOME和Path),并说明如何通过调整JAVA_HOME在... 首先去oracle官网下载好两个版本不同的jdk(需要登录Oracle账号,没有可以免费注册)下载完

Java JDK1.8 安装和环境配置教程详解

《JavaJDK1.8安装和环境配置教程详解》文章简要介绍了JDK1.8的安装流程,包括官网下载对应系统版本、安装时选择非系统盘路径、配置JAVA_HOME、CLASSPATH和Path环境变量,... 目录1.下载JDK2.安装JDK3.配置环境变量4.检验JDK官网下载地址:Java Downloads