Linux下Hadoop的安装(单机版)

2024-04-28 23:08
文章标签 单机版 linux hadoop 安装

本文主要是介绍Linux下Hadoop的安装(单机版),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.安装前准备

1.1创建hadoop用户

首先创建hadoop用户组和用户,如果对linux命令不熟悉,可以参考http://blog.csdn.net/huhui_bj/article/details/8878701中的命令。
sudo addgroup hadoop #添加hadoop用户组
sudo adduser --ingroup hadoop hduser #在hadoop用户组中添加hduser

1.2下载hadoop安装程序

我所用的是hadoop1.0.4,也是目前比较稳定的版本,下载地址:http://download.csdn.net/detail/huhui_bj/6028891
下载完之后,把文件放在hadoop用户目录的software目录下,然后用tar命令解压缩(请确保是用hadoop用户解压缩,否则需要改变文件夹的用户和用户组):
[plain]  view plain copy
  1. tar -zxvf hadoop-1.0.4.tar.gz  

1.3安装ssh

请确保你的Linux系统中已经安装了ssh软件,一般的Linux发行版都已经在安装完操作系统之后自带ssh软件。如果没有,执行以下命令安装:
[plain]  view plain copy
  1. sudo apt-get install ssh  

1.4安装rsync

请确保你的Linux中已经安装了rsync,不然,请执行以下命令安装:
[plain]  view plain copy
  1. sudo apt-get install rsync  

1.5配置ssh免密码登录

[plain]  view plain copy
  1. ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa  
  2. cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys  
如果在配置ssh免密码登录的时候出现了ssh: connect to host localhost port 22: Connection refused错误,解决的办法如下:

第一步,在https://launchpad.net/ubuntu/lucid/i386/openssh-client/1:5.3p1-3ubuntu3

下载文件并安装:$ sudo dpkg -i openssh-client_5.3p1-3ubuntu3_i386.deb 

第二步,在https://launchpad.net/ubuntu/lucid/i386/openssh-server/1:5.3p1-3ubuntu3

下载文件并安装:$ sudo dpkg -i openssh-server_5.3p1-3ubuntu3_i386.deb 

第三步,在https://launchpad.net/ubuntu/lucid/i386/ssh/1:5.3p1-3ubuntu3

下载文件并安装:$ sudo dpkg -i ssh_5.3p1-3ubuntu3_all.deb 


验证ssh免登录是否配置成功:

[plain]  view plain copy
  1. ssh localhost  

方法二:

[plain]  view plain copy
  1. #生成公钥和私钥  
  2. ssh-keygen -q -t rsa -N "" -f ~/.ssh/id_rsa  
  3. cd .ssh  
  4. cat id_rsa.pub > authorized_keys  
  5. chmod go-wx  authorized_keys  

出现如下信息,则说明ssh免登录配置成功:


1.6安装并配置JDK

JDK的安装和配置,请参考博文http://blog.csdn.net/huhui_bj/article/details/8596388中关于JDK的安装说明。

2.安装并配置单机版Hadoop

2.1修改hadoop-env.sh

在hadoop目录下的conf目录下,找到hadoop-env.sh文件(针对hadoop-2.2.0版本,在hadoop-2.2.0/etc/hadoop/目录下),将JAVA_HOME配置进去(这里默认是使用的$JAVA_HOME,$JAVA_HOME已定义但是因为新建的用户无法识别,需要修改为固定目录):
[plain]  view plain copy
  1. vi conf/hadoop-env.sh  
添加JAVA_HOME(请根据自己的环境变量地址修改):
[plain]  view plain copy
  1. JAVA_HOME=/home/hadoop/software/jdk1.6.0_21  

2.2修改hadoop的核心配置文件core-site.xml(针对hadoop-2.2.0版本,在hadoop-2.2.0/etc/hadoop/目录下),配置HDFS的地址和端口号

[plain]  view plain copy
  1. vi conf/core-site.xml  
添加如下内容:
[html]  view plain copy
  1. <configuration>  
  2.      <property>  
  3.          <name>fs.default.name</name>  
  4.          <value>hdfs://localhost:9000</value>  
  5.      </property>  
  6. </configuration>  

2.3修改hadoop中HDFS的配置(针对hadoop-2.2.0版本,在hadoop-2.2.0/etc/hadoop/目录下)

[plain]  view plain copy
  1. vi conf/hdfs-site.xml  
添加如下内容:
[html]  view plain copy
  1. <configuration>  
  2.      <property>  
  3.          <name>dfs.replication</name>  
  4.          <value>1</value>  
  5.      </property>  
  6. </configuration>  

2.4修改hadoop中MapReduce的配置文件(针对hadoop-2.2.0版本,在hadoop-2.2.0/etc/hadoop/目录下),配置的是JobTracker的地址和端口

[plain]  view plain copy
  1. vi conf/mapred-site.xml  
添加如下内容:
[html]  view plain copy
  1. <configuration>  
  2.      <property>  
  3.          <name>mapred.job.tracker</name>  
  4.          <value>localhost:9001</value>  
  5.      </property>  
  6. </configuration>  

以上就是单机版Hadoop的最小化配置

2.5格式化一个新的分布式文件系统

[plain]  view plain copy
  1. bin/hadoop namenode -format  

2.6启动hadoop(针对hadoop-2.2.0版本,建议使用 start-dfs.sh)

[plain]  view plain copy
  1. bin/start-all.sh  

3.验证Hadoop是否安装成功

  • HDFS的web页面: - http://localhost:50070/
  • MapReduce的web页面: - http://localhost:50030/
如果这两个页面能打开,说明你的hadoop已经安装成功了。

3.1运行WordCount例子

在HDFS的根目录下创建input文件夹(bin目录下执行):
[plain]  view plain copy
  1. ./hadoop fs -mkdir /input  
将start-all.sh文件放入hadoop的文件系统input目录下
[plain]  view plain copy
  1. ./hadoop fs -put start-all.sh /input  
运行Wordount例子:
[plain]  view plain copy
  1. bin/hadoop jar hadoop-examples-1.0.4.jar  wordcount /input /output  
原文地址:点击打开链接

这篇关于Linux下Hadoop的安装(单机版)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/944504

相关文章

LInux 安装并使用htop

htop 安装: sudo apt-get install htop htop 界面说明 如果你观察窗口的左上角部分,你会看到显示的是 CPU 负载、内存消耗及交换空间的实时信息,右上角包含的是任务、线程、平均负载及系统运行时间的信息。 (1)Tasks 显示了当前的进程总数,其中有N个进程在运行 (2)Load average load average 三个参数的含义分别是过去的

Jetson TX2上安装配置CLion

https://blog.csdn.net/Geek_Tank/article/details/78927102

Linux下使用scp进行文件复制

Linux scp 命令用于 Linux 之间复制文件和目录。 scp 是 secure copy 的缩写, scp 是 linux 系统下基于 ssh 登陆进行安全的远程文件拷贝命令。 常用场景: 1. 从本地向服务器上传 上传文件 没有指定复制后的文件名,默认使用原文件名 scp local_file remote_username@remote_ip:remote_folder

网络安全快速入门(十二) linux的目录结构

我们前面已经了解了基础命令,今天我们来讲讲linux中的目录结构,我们在了解linux的目录结构之前,我们先与Windows做一个对比 12.1linux和windows的目录结构对比 在之前认识liunx的章节中,我们已经简单说明了linux和window的目录结构,两个目录结构的差别如下: windows中 C、D、E盘,每个都是一个根系统【多根系统】 linux中只有一个根【单根

Linux sndconfig命令教程:如何在Linux下设置声卡(附实例详解和注意事项)

Linux sndconfig命令介绍 sndconfig(Sound Configuration)是一个用于设置声卡的命令。它支持即插即用(Plug and Play,PnP)设置,可以自动检测并设置PnP声卡。sndconfig命令可以帮助用户在Linux系统中配置声卡,使其能够播放和录制声音。 Linux sndconfig命令适用的Linux版本 sndconfig命令在大多数Lin

RabbitMQ中间件安装

消息队列 RabbitMQ yum -y updateyum -y install epel-release erlang # 安装erlangerl -version # 判断是否安装成功 根据官网的的表格判断自己用哪个版本的 RabbitMQ:https://www.rabbitmq.com/docs/which-erlang#r16b03 [root@iZuf6hqrs5cb2

Linux中system V 标准 与 Psix标准

一.  简介 本文简单了解一下, Linux下 的两种标准: system V标准与 Psix标准。 二. Linux中system V 标准 与 Psix标准 1.  Linux中system V 标准 与 Psix标准 System V 和 POSIX 是指定操作系统如何实现标准化API的两大标准。 System V 是一套标准,定义了操作系统的API,用于进程间通信,内存管

Linux提权--Rsync(未授权访问) Docker 组挂载

免责声明:本文仅做技术学习与交流... 目录 Rsync(未授权访问) 介绍: 靶场及过程:  提权过程:  Docker 组挂载 原理: 复现:   利用:   具体操作: 1-确定是否有docker服务 2-查看用户是否在docker组里面 3-执行命令 Rsync(未授权访问) 介绍: rsync是Linux下一款数据备份工具,支持通过rsyn

在Mac上配置Hadoop伪分布式娱乐环境

去年我曾发文记录如何在Ubuntu上配置伪分布式版的Hadoop3娱乐环境:https://fuhailin.github.io/Hadoop-Install/ ,通过配置Hadoop娱乐环境你可以熟悉Hadoop的一些基本概念与操作方式,后来我的Dell被我玩坏了,也就没法在Ubuntu上顺畅娱乐了,后来一狠心入手了现在MacBook Pro,希望它能皮实耐操一点。今天我们继续在MacOS配置一

gpustat : Linux下面监控GPU状态

nvidia-smi是 Nvidia 显卡命令行管理套件,基于 NVML 库,旨在管理和监控 Nvidia GPU 设备。 nvidia-smi 的输出 这是 nvidia-smi 命令的输出,其中最重要的两个指标: 显存占用 GPU 利用率 显存占用和 GPU 利用率是两个不一样的东西,显卡是由 GPU 计算单元和显存等组成的,显存和 GPU 的关系有点类似于内存和 CPU 的关系。