hadoop学习第一天之伪分布模式安装( 上)

2024-05-06 09:58

本文主要是介绍hadoop学习第一天之伪分布模式安装( 上),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Hadoop核心项目:

1.   HDFS:Hadoop Distributed File System 分布式文件系统

2.   MapReduce:并行计算框架

 

HDFS的架构:

主从结构:

                   主节点:只有一个,namenode

                   从节点:有很多歌,datanodes

   Namenode负责:

3.   接收用户操作请求

4.   维护文件系统的目录结构

5.   管理文件与block之间的关系,block与datanode之间的关系

Datanode负责:

1.   存储文件

2.   文件被分为block存储在磁盘上

3.   为保证数据安全,文件会有多个副本

MapReduce架构:

1.   主从结构

a)     主节点,只有一个:JobTracker(项目经理)

b)     从节点:有很多TaskTrackers(开发人员)

2.   JobTracker负责

a)     接收客户提交的计算请求

b)     把计算任务分配给TaskTrackers执行

c)      监控TaskTracker的执行情况

3.   TaskTrackers负责

a)     执行JobTracker分配的计算任务

Hadoop特点:

1.   扩容能力(Scalable):PB级数据

2.   成本低(Economical):普通机器组成服务群

3.   高效率(Efficient):  分发数据,在各个节点并行处理他们,使得整体处理速度很高

4.   可靠性(Reliable):自动维护任务多个副本,并且在任务失败后能自动重新部署

 

 

主从节点的安装机器是没有区别的,主节点还是从节点根据机器上的进程是否为JobTracker和NameNode

Hadoop部署方式:

1.   本地模式:生产中不用

2.   伪分布模式:学习使用

3.   集群模式:开发生产用

伪分布模式安装步骤:

1.   关闭防火墙

2.   修改IP

3.   修改hostName

4.   设置ssh自动登录

5.   安装jdk

6.   安装hadoop

虚拟机的上网方式改为桥接上网。

      学习时可设置为host-only方式,多个虚拟机只连接宿主机,和外网没有接触。

虚拟机的ip修改:

1.   进入虚拟机Centosà桌面最顶端右击联网图标(两个电脑)à编辑连接à选择System Eth0类似的ip接口à点编辑à选择Ipv4 Setting àmethod设置为Manual,address处add添加上设置的ip地址,掩码和网关,网关需要是宿主机Vm的虚拟ip地址VMnet1的地址à点击Apply


2.   重启网络服务:#service network restart

3.   Ifconfig检查配置是否生效

4.   从CentOS上#ping 192.168.100.1

从宿主机cmd窗口:ping 192.168.100.11

都通了证明Ip配置好了

远程登录:

1.   检查CentOS上的ssh是否开启

PS –e | grep ssh

显示出以sshd结尾的一行就证明sshd服务已经启动,

否则用#service sshd start开启服务,#service sshd stop是关闭服务的。

2.   在宿主机打开PieTTY 输入CentOS的ip地址,点打开

输入root用户和密码,就会登录成功

3.   安装winscp软件,是在linux和windows系统之间传输文件的工具

4.   关闭防火墙

#service iptables  stop  都报OK就是关闭成功

#service iptables status 检查下防火墙关闭状态

这种关闭只是暂时的,可以通过修改配置文件,在开机启动时不启动防火墙。

#vim /etc/selinux/config (默认你会使用vim编辑器)

将SELINUX=enforcing (开机启动) 修改为SELINUX=disabled (开机不启动)。

也可以通过命令关闭防火墙自动启动

#chkconfig  --list| grep iptables

查看iptables的开启状态 0-6共7个

#chkconfig     iptables  off 关闭防火墙

5.   修改主机名:方便连接,不用输入ip了

#hostname 查看主机名

#hostname hadoop1 设置主机名为hadoop1

这样的设置只对当前操作生效,重启后会恢复为原理的主机名,需要修改配置文件才能一劳永逸

#vim /etc/sysconfig/network 文件下

HOSTNAME=hadoop1 保存退出,这样重启后就仍然是hadoop1了,不重启该文件修改时不生效的,可以直接使用hostname 在本次修改主机名

6.   SSH 远程免登陆设置

a)     生成RSA公钥

#ssh-keygen –t rsa

一直回车

b)     查看ssh公钥存在的位置

公钥在当前用户(root)主目录下的.ssh目录下

为id_rsa.pub

#cp  ~/.ssh/id_rsa.pub  ~/.ssh/authorized_keys

就可以实现本机的免密码登录

复制到远程主机,在接下来用scp命令添加公钥

c)      绑定主机名和IP地址

#vim /etc/hosts 添加一行

192.168.100.11  hadoop1  就可以了

#ssh  hadoop1 就可以免密码登录了,第一次会确认公钥,输入yes即可

 

 


这篇关于hadoop学习第一天之伪分布模式安装( 上)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/964064

相关文章

RabbitMQ 延时队列插件安装与使用示例详解(基于 Delayed Message Plugin)

《RabbitMQ延时队列插件安装与使用示例详解(基于DelayedMessagePlugin)》本文详解RabbitMQ通过安装rabbitmq_delayed_message_exchan... 目录 一、什么是 RabbitMQ 延时队列? 二、安装前准备✅ RabbitMQ 环境要求 三、安装延时队

linux系统上安装JDK8全过程

《linux系统上安装JDK8全过程》文章介绍安装JDK的必要性及Linux下JDK8的安装步骤,包括卸载旧版本、下载解压、配置环境变量等,强调开发需JDK,运行可选JRE,现JDK已集成JRE... 目录为什么要安装jdk?1.查看linux系统是否有自带的jdk:2.下载jdk压缩包2.解压3.配置环境

Unity新手入门学习殿堂级知识详细讲解(图文)

《Unity新手入门学习殿堂级知识详细讲解(图文)》Unity是一款跨平台游戏引擎,支持2D/3D及VR/AR开发,核心功能模块包括图形、音频、物理等,通过可视化编辑器与脚本扩展实现开发,项目结构含A... 目录入门概述什么是 UnityUnity引擎基础认知编辑器核心操作Unity 编辑器项目模式分类工程

Python库 Django 的简介、安装、用法入门教程

《Python库Django的简介、安装、用法入门教程》Django是Python最流行的Web框架之一,它帮助开发者快速、高效地构建功能强大的Web应用程序,接下来我们将从简介、安装到用法详解,... 目录一、Django 简介 二、Django 的安装教程 1. 创建虚拟环境2. 安装Django三、创

linux安装、更新、卸载anaconda实践

《linux安装、更新、卸载anaconda实践》Anaconda是基于conda的科学计算环境,集成1400+包及依赖,安装需下载脚本、接受协议、设置路径、配置环境变量,更新与卸载通过conda命令... 目录随意找一个目录下载安装脚本检查许可证协议,ENTER就可以安装完毕之后激活anaconda安装更

Jenkins的安装与简单配置过程

《Jenkins的安装与简单配置过程》本文简述Jenkins在CentOS7.3上安装流程,包括Java环境配置、RPM包安装、修改JENKINS_HOME路径及权限、启动服务、插件安装与系统管理设置... 目录www.chinasem.cnJenkins安装访问并配置JenkinsJenkins配置邮件通知

Python学习笔记之getattr和hasattr用法示例详解

《Python学习笔记之getattr和hasattr用法示例详解》在Python中,hasattr()、getattr()和setattr()是一组内置函数,用于对对象的属性进行操作和查询,这篇文章... 目录1.getattr用法详解1.1 基本作用1.2 示例1.3 原理2.hasattr用法详解2.

Win10安装Maven与环境变量配置过程

《Win10安装Maven与环境变量配置过程》本文介绍Maven的安装与配置方法,涵盖下载、环境变量设置、本地仓库及镜像配置,指导如何在IDEA中正确配置Maven,适用于Java及其他语言项目的构建... 目录Maven 是什么?一、下载二、安装三、配置环境四、验证测试五、配置本地仓库六、配置国内镜像地址

Python安装Pandas库的两种方法

《Python安装Pandas库的两种方法》本文介绍了三种安装PythonPandas库的方法,通过cmd命令行安装并解决版本冲突,手动下载whl文件安装,更换国内镜像源加速下载,最后建议用pipli... 目录方法一:cmd命令行执行pip install pandas方法二:找到pandas下载库,然后

Linux系统中查询JDK安装目录的几种常用方法

《Linux系统中查询JDK安装目录的几种常用方法》:本文主要介绍Linux系统中查询JDK安装目录的几种常用方法,方法分别是通过update-alternatives、Java命令、环境变量及目... 目录方法 1:通过update-alternatives查询(推荐)方法 2:检查所有已安装的 JDK方