Ubuntu16配置Hadoop伪分布模式

2023-12-08 19:32

本文主要是介绍Ubuntu16配置Hadoop伪分布模式,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一:配置Java环境
0.ubuntu16安装配置jdk http://www.th7.cn/system/lin/201607/173578.shtml
1.打开/etc/environment ,配置JAVA_HOME =java安装路径
2.在etc/environment中配置PATH,追加:java安装路径/bin
二:配置Hadoop环境
1.打开/etc/environment,配置HADOOP_INSTALL,(为什么不是HADOOP_HOME,因为在HADOOP的安装目录下,bin和sbin下的文件会动态创建HADOOP_HOME),如果我们加了会干扰HADOOP_HOME的创建。
2.配置HADOOP_INSTALL=/usr/hadoop/hadoop-2.7.3(hadoop安装目录),在PATH中加入:/usr/hadoop/hadoop-2.7.3/bin:/usr/hadoop/hadoop-2.7.3/sbin ,注意冒号。
3.使用source /etc/environment使配置立即生效.
4使用echo $HADOOP_INSTALL查看配置。
5.使用hadoop version若提示JAVA_HOME不存在,存在未生效问题,可以重启。

                                Hadoop(http://www.powerxing.com/install-hadoop/)

一:Hadoop三种模式
1.独立模式
2.伪分布式
3.完全分布式
二:
处理海量数据,hadoop the definitive guide 下载地址http://download.csdn.net/detail/xinconan1992/8743847
1.存储
分布式文件系统:HDFS,hadoop distributed file system
2.运算
mapreduce,map()+reduce
三:
1.独立模式
(1)没有守护进程
(2)local FileSystem和 local MR job runner(mapreduce作业运行器?)
(3)hadoop fs -ls / 查看独立模式下的文件系统,会输出当前系统根目录下所有目录
2.伪分布模式(所有程序在一个主机上)
(0)所有文件在hadoop安装目录/etc/hadoop,配置伪分布模式先把 hadoop安装目录 cp -r /usr/hadoop/hadoop-2.7.3/etc/hadoop hadoop_pseudo
(1)配置core-site,存在多个数据节点用来存储海量数据
Name-node 名称节点 存放文件节点目录 NN ,名称节点备份 secondaryNamenode
Data-node 数据节点 DN,数据节点存在若干个备份 replication
(2)配置core_site.xml的fs.defaultFS的值是hdfs://localhost/,代表名称节点存储在本机(hdfs代表分布式文件系统)

<property><name>fs.defaultFS</name><value>hdfs://localhost/</value>
</property>
    (3)配置hdfs-site,属性dfs.replication,伪分布模式下只有一个数据节点,所有他的值是1。
<property><name>dfs.replication</name><value>1</value>
</property>
    (4)配置mapred-site,需要根据mapred-site.xml.templated创建,  cp mapred-site.xml.template mapred-site.xml   配置mapreduce.framework.name,配置mapreduce框架为yarn。
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
    (5)配置yarn-site,配置yarn.resourcemanager.hostname(资源管理器主机名称)为localhost,配置yarn.nodemanager.aux-services为mapreduce-shuffle
<property>                            <name>yarn.resourcemanager.hostname</name><value>localhost</value>
</property>
<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value>
</property>
    (6)想在主机之间进行通信,安装ssh ,使用 **which ssh**,出现/usr/bin/ssh是不行的,这里(apt-cache search ssh)使用安装**apt-get install ssh**,安装ssh成功,which ssh-keygen出现/usr/bin/ssh-keygen(ssh: public key:给别人private key:自己用private key 加密,可以用public key解密。Public key 加密的数据只能private key解密,private key只能public key解密。)(7)使用**ssh-keygen -t rsa -P '' -f  ~/.ssh/id_rsa**  ,-t rsa 是一个算法  -P '',没有口令,-f  ~/.ssh/id_rsa是生成目录(cd ~命令是,进入用户在该系统的home目录,例如xz用户,则进入/root/xz目录)(8)**cat id_rsa.pub >> authorized_keys**  现在ssh localhost命令相当于以ssh连接到本机,exit可退出,产生known_hosts文件(9)以**ssh localhost**登陆,第一次需要输入yes,第二次不需要输入任何东西,执行hadoop文件格式化命令 **hadoop namenode -format**(10)启动hadoop,在hadoop安装目录下的etc文件夹中**start-dfs.sh --config $HADOOP_INSTALL/etc/hadoop_pseudostart-yarn.sh --config $HADOOP_INSTALL/etc/hadoop_pseudo**(11)at http://localhost:50070/ for the namenode, http://localhost:8088/ for the resource manager, and http://localhost:19888/ for the history server. Youcan also use Java’s jps command to see whether the processes are running. (12)        **stop-yarn.shstop -dfs.sh**(13)在安装目录的etc的文件夹下可以用 **start-all.sh --config $HADOOP_INSTALL/etc/hadoop_pseudo** 来启动,会依次启动dfs和yarn(14)配置HADOOP_CONF_DIR指定伪分布模式文件目录  **export HADOOP_CONF_DIR=$HADOOP_INSTALL/etc/hadoop_pseudo**(export设置只对当前的bash登录session有效。这是存在内存里面的。你可以写入文件一般的文件。之后source它。或者放到/etc/profile 等等的位置里,不同的地方效果不同)(15)**hadoop fs -ls /** 查看目录下文件和文件夹(16)hadoop文件系统下创建目录  **hadoop fs -mkdir /user/**   ,再查看目录 hadoop fs -ls /  ,可以看到user文件夹(17)问题1:第二次开机启动使用 start-all.sh --config $HADOOP_INSTALL/etc/hadoop_pseudo,发现namenode不能启动,需要在home目录下新建hadoop_tmp,修改core-site文件
<property><name>hadoop.tmp.dir</name><value>/usr/local/hadoop_tmp</value><description>A base for other temporary directories.</description>
</property>
    问题2:而且HADOOP_CONF_DIR只对一次会话有效。在/etc/profile末尾中写入 **export HADOOP_CONF_DIR=$HADOOP_INSTALL/etc/hadoop_pseudo**

这篇关于Ubuntu16配置Hadoop伪分布模式的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/471074

相关文章

SpringBoot3.4配置校验新特性的用法详解

《SpringBoot3.4配置校验新特性的用法详解》SpringBoot3.4对配置校验支持进行了全面升级,这篇文章为大家详细介绍了一下它们的具体使用,文中的示例代码讲解详细,感兴趣的小伙伴可以参考... 目录基本用法示例定义配置类配置 application.yml注入使用嵌套对象与集合元素深度校验开发

IntelliJ IDEA 中配置 Spring MVC 环境的详细步骤及问题解决

《IntelliJIDEA中配置SpringMVC环境的详细步骤及问题解决》:本文主要介绍IntelliJIDEA中配置SpringMVC环境的详细步骤及问题解决,本文分步骤结合实例给大... 目录步骤 1:创建 Maven Web 项目步骤 2:添加 Spring MVC 依赖1、保存后执行2、将新的依赖

SpringBoot基于配置实现短信服务策略的动态切换

《SpringBoot基于配置实现短信服务策略的动态切换》这篇文章主要为大家详细介绍了SpringBoot在接入多个短信服务商(如阿里云、腾讯云、华为云)后,如何根据配置或环境切换使用不同的服务商,需... 目录目标功能示例配置(application.yml)配置类绑定短信发送策略接口示例:阿里云 & 腾

如何为Yarn配置国内源的详细教程

《如何为Yarn配置国内源的详细教程》在使用Yarn进行项目开发时,由于网络原因,直接使用官方源可能会导致下载速度慢或连接失败,配置国内源可以显著提高包的下载速度和稳定性,本文将详细介绍如何为Yarn... 目录一、查询当前使用的镜像源二、设置国内源1. 设置为淘宝镜像源2. 设置为其他国内源三、还原为官方

CentOS7更改默认SSH端口与配置指南

《CentOS7更改默认SSH端口与配置指南》SSH是Linux服务器远程管理的核心工具,其默认监听端口为22,由于端口22众所周知,这也使得服务器容易受到自动化扫描和暴力破解攻击,本文将系统性地介绍... 目录引言为什么要更改 SSH 默认端口?步骤详解:如何更改 Centos 7 的 SSH 默认端口1

Maven的使用和配置国内源的保姆级教程

《Maven的使用和配置国内源的保姆级教程》Maven是⼀个项目管理工具,基于POM(ProjectObjectModel,项目对象模型)的概念,Maven可以通过一小段描述信息来管理项目的构建,报告... 目录1. 什么是Maven?2.创建⼀个Maven项目3.Maven 核心功能4.使用Maven H

SpringBoot多数据源配置完整指南

《SpringBoot多数据源配置完整指南》在复杂的企业应用中,经常需要连接多个数据库,SpringBoot提供了灵活的多数据源配置方式,以下是详细的实现方案,需要的朋友可以参考下... 目录一、基础多数据源配置1. 添加依赖2. 配置多个数据源3. 配置数据源Bean二、JPA多数据源配置1. 配置主数据

Spring 基于XML配置 bean管理 Bean-IOC的方法

《Spring基于XML配置bean管理Bean-IOC的方法》:本文主要介绍Spring基于XML配置bean管理Bean-IOC的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一... 目录一. spring学习的核心内容二. 基于 XML 配置 bean1. 通过类型来获取 bean2. 通过

如何使用Nginx配置将80端口重定向到443端口

《如何使用Nginx配置将80端口重定向到443端口》这篇文章主要为大家详细介绍了如何将Nginx配置为将HTTP(80端口)请求重定向到HTTPS(443端口),文中的示例代码讲解详细,有需要的小伙... 目录1. 创建或编辑Nginx配置文件2. 配置HTTP重定向到HTTPS3. 配置HTTPS服务器

SpringBoot中配置Redis连接池的完整指南

《SpringBoot中配置Redis连接池的完整指南》这篇文章主要为大家详细介绍了SpringBoot中配置Redis连接池的完整指南,文中的示例代码讲解详细,具有一定的借鉴价值,感兴趣的小伙伴可以... 目录一、添加依赖二、配置 Redis 连接池三、测试 Redis 操作四、完整示例代码(一)pom.