hadoop2.x linux集群部署

2023-11-23 14:12
文章标签 linux 部署 集群 hadoop2

本文主要是介绍hadoop2.x linux集群部署,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

hadoop2.x 集群部署

  • 下载hadoop
  • 需要提前准备好jdk1.8 和rsync 和ssl
  • 集群信息
  • 解压安装
    • 配置环境变量
    • 配置site配置文件(/hadoop/etc/hadoop目录下)
      • core-site.xml
      • hdfs-site.xml
      • yarn-site.xml
      • mapred-site.xml
      • hadoop-env.sh要追加java_home!
      • 配置节点slaves
    • 配置免密ssh访问
      • 没有ssh-copy-id脚本的情况下,免密登录
    • 编写xsync脚本
    • 分发到其他集群
  • 启动集群
  • 查看集群启动情况

接收到一个项目 需要进行hadoop的数据迁移.旧版本使用的是hadoop2.x的,所以这里记录一下hadoop2.x的集群部署. 以便于后续数据通过distcp来迁移

linux版本是centos7

下载hadoop

我这里下的是这个版本hadoop-2.10.2.tar.gz. 去清华镜像 或者阿里华为都可以

需要提前准备好jdk1.8 和rsync 和ssl

  • jdk hadoop环境的需要
  • rsync 同步集群分发的时候需要
  • ssl 免密登陆访问集群,便于分发

集群信息

我这里有12台机,其中2台要部署hive.这里一定要使用hostname来进行配置,只通过ip来配置的话,总有一些奇奇怪怪的问题.

涉及的hadoop服务集群如下

hadoop98
hadoop99
hadoop100
hadoop102
hadoop103
hadoop104
hadoop105
hadoop106
hadoop107
hadoop108
hive97
hive101
------以上服务器 都是hadoop节点涉及hive服务器 
hive97  主要用这个 ,这台配置了mysql
hive101

解压安装

需要提前安装好jdk 并配置好java_home
然后把hadoop的压缩包扔到服务器 tar -zxvf 解压就行.解压后,我是放置在/usr/local目录下面

配置环境变量

接下来配置一下hadoop的环境变量
/etc/profile

export HADOOP_HOME=/usr/local/hadoop-2.10.2
export PATH=$PATH:$REDIS_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

记得 source /etc/profile

配置site配置文件(/hadoop/etc/hadoop目录下)

core-site.xml

<configuration><property><name>fs.defaultFS</name><value>hdfs://hadoop98:9000</value></property><property><name>hadoop.tmp.dir</name><value>/usr/local/hadoop-2.10.2/tmp</value></property><property><name>fs.trash.interval</name><value>1440</value></property>
</configuration>

hdfs-site.xml

<configuration> <property><name>dfs.namenode.http-address</name><value>hadoop98:50070</value></property><property><name>dfs.namenode.secondary.http-address</name><value>hadoop98:50090</value></property><property><name>dfs.namenode.name.dir</name><value>file:/opt/hadoop/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/opt/hadoop/dfs/data</value></property><property><name>dfs.webhdfs.enabled</name><value>true</value></property>  <property><name>dfs.replication</name><value>1</value></property><property><name>dfs.permissions</name><value>false</value></property>
</configuration>

yarn-site.xml


<configuration><property><name>yarn.resourcemanager.hostname</name><value>hadoop98</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.log-aggregation-enable</name><value>true</value></property><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property><property><name>yarn.nodemanager.resource.memory-mb</name><value>20480</value></property><property><name>yarn.scheduler.minimum-allocation-mb</name><value>2048</value></property><property><name>yarn.nodemanager.vmem-pmem-ratio</name><value>2.1</value></property>
</configuration>

mapred-site.xml

<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>hadoop98:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop98:19888</value></property>
</configuration>

hadoop-env.sh要追加java_home!

export HADOOP_IDENT_STRING=$USER
export JAVA_HOME=/usr/local/jdk1.8.0_281

配置节点slaves

[root@hadoop98 hadoop]# cat slaves
hadoop98
hadoop99
hadoop100
hadoop102
hadoop103
hadoop104
hadoop105
hadoop106
hadoop107
hadoop108
hive97
hive101
[root@hadoop98 hadoop]# 

配置免密ssh访问

先到 ~/.ssh目录下 生产密钥对
ssh-keygen -t rsa
然后路径会生成公钥(id_rsa.pub)和私钥(id_rsa)

然后通过ssh-copy-id 服务器名(ip),将公钥分发给其他集群中的服务器.然后就可以ssh 免密登录了

没有ssh-copy-id脚本的情况下,免密登录

通过指令

cat ~/.ssh/id_*.pub|ssh root@待访问的主机IP 'cat>>.ssh/authorized_keys' 

解释

  1. 当前主机位 ,需要免密登录 待访问的主机.则执行上面那一条命令
  2. 执行后会提示输入一此,待访问的主机的密码,随后成功后即可

但是,在执行上述之前,要确保待访问的主机的~目录下有.ssh文件夹,如果报错要提前执行以下

ssh 待访问的主机 'mkdir .ssh'

编写xsync脚本

xsync这里就是一个名称, 你想改成什么都可以.
他的原理就是通过 使用 rsync同步增量覆盖分发而已
这里测试 hadoop98-100 3台机器,要全部分发的话自行修改 for的循环即可

  • 这里除了 for 的循环设备,其他都不用改,直接抄就行.你有时间的话 可以自行理解一下
  • 为了方便使用xsync,建议在/usr/bin目录下新建这个文件,并授权chmod 777.这样无论到哪个位置 都可以直接使用了
  • 使用方法: xsync 需要同步的目录或者文件即可
#!/bin/bash#1. 判断参数个数
if [ $# -lt 1 ]
thenecho Not Enough Arguement!exit;
fi#2. 遍历集群所有机器
for host in hadoop98 hadoop99 hadoop100
doecho ====================  $host  ====================#3. 遍历所有目录,挨个发送for file in $@do#4. 判断文件是否存在if [ -e $file ]then#5. 获取父目录pdir=$(cd -P $(dirname $file); pwd)#6. 获取当前文件的名称fname=$(basename $file)ssh $host "mkdir -p $pdir"rsync -av $pdir/$fname $host:$pdirelseecho $file does not exists!fidone
done

分发到其他集群

同步hadoop   xsync /usr/local/hadoop
同步环境变量  xsync /etc/profile
这里在集群机器上,还要执行source /etc/profile .这里直接通过ssh 服务器来 远程执行也是可以的----以下 看自己的需求------------
当前,也需要同步jdk  xsync /usr/local/jdk

启动集群

这里意识hadoop98作为主服务器,在这上面执行 start-all.sh即可(这里没有这个命令的话,检查一下环境变量是否配置)
或者执行 start-dfs.sh

查看集群启动情况

hadoop dfsadmin -report

这篇关于hadoop2.x linux集群部署的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/418503

相关文章

Linux中压缩、网络传输与系统监控工具的使用完整指南

《Linux中压缩、网络传输与系统监控工具的使用完整指南》在Linux系统管理中,压缩与传输工具是数据备份和远程协作的桥梁,而系统监控工具则是保障服务器稳定运行的眼睛,下面小编就来和大家详细介绍一下它... 目录引言一、压缩与解压:数据存储与传输的优化核心1. zip/unzip:通用压缩格式的便捷操作2.

Linux中SSH服务配置的全面指南

《Linux中SSH服务配置的全面指南》作为网络安全工程师,SSH(SecureShell)服务的安全配置是我们日常工作中不可忽视的重要环节,本文将从基础配置到高级安全加固,全面解析SSH服务的各项参... 目录概述基础配置详解端口与监听设置主机密钥配置认证机制强化禁用密码认证禁止root直接登录实现双因素

在Linux终端中统计非二进制文件行数的实现方法

《在Linux终端中统计非二进制文件行数的实现方法》在Linux系统中,有时需要统计非二进制文件(如CSV、TXT文件)的行数,而不希望手动打开文件进行查看,例如,在处理大型日志文件、数据文件时,了解... 目录在linux终端中统计非二进制文件的行数技术背景实现步骤1. 使用wc命令2. 使用grep命令

Linux如何快速检查服务器的硬件配置和性能指标

《Linux如何快速检查服务器的硬件配置和性能指标》在运维和开发工作中,我们经常需要快速检查Linux服务器的硬件配置和性能指标,本文将以CentOS为例,介绍如何通过命令行快速获取这些关键信息,... 目录引言一、查询CPU核心数编程(几C?)1. 使用 nproc(最简单)2. 使用 lscpu(详细信

linux重启命令有哪些? 7个实用的Linux系统重启命令汇总

《linux重启命令有哪些?7个实用的Linux系统重启命令汇总》Linux系统提供了多种重启命令,常用的包括shutdown-r、reboot、init6等,不同命令适用于不同场景,本文将详细... 在管理和维护 linux 服务器时,完成系统更新、故障排查或日常维护后,重启系统往往是必不可少的步骤。本文

Redis分片集群、数据读写规则问题小结

《Redis分片集群、数据读写规则问题小结》本文介绍了Redis分片集群的原理,通过数据分片和哈希槽机制解决单机内存限制与写瓶颈问题,实现分布式存储和高并发处理,但存在通信开销大、维护复杂及对事务支持... 目录一、分片集群解android决的问题二、分片集群图解 分片集群特征如何解决的上述问题?(与哨兵模

SpringBoot连接Redis集群教程

《SpringBoot连接Redis集群教程》:本文主要介绍SpringBoot连接Redis集群教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 依赖2. 修改配置文件3. 创建RedisClusterConfig4. 测试总结1. 依赖 <de

基于Linux的ffmpeg python的关键帧抽取

《基于Linux的ffmpegpython的关键帧抽取》本文主要介绍了基于Linux的ffmpegpython的关键帧抽取,实现以按帧或时间间隔抽取关键帧,文中通过示例代码介绍的非常详细,对大家的学... 目录1.FFmpeg的环境配置1) 创建一个虚拟环境envjavascript2) ffmpeg-py

Linux脚本(shell)的使用方式

《Linux脚本(shell)的使用方式》:本文主要介绍Linux脚本(shell)的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录概述语法详解数学运算表达式Shell变量变量分类环境变量Shell内部变量自定义变量:定义、赋值自定义变量:引用、修改、删

Linux链表操作方式

《Linux链表操作方式》:本文主要介绍Linux链表操作方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、链表基础概念与内核链表优势二、内核链表结构与宏解析三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势六、典型应用场景七、调试技巧与