Step by Step 实现基于 Cloudera 5.8.2 的企业级安全大数据平台 - Kerberos的整合

本文主要是介绍Step by Step 实现基于 Cloudera 5.8.2 的企业级安全大数据平台 - Kerberos的整合,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大数据技术与架构

点击右侧关注,大数据开发领域最强公众号!

暴走大数据

点击右侧关注,暴走大数据!

Kerberos简介

之前非常担心的一件事就是如果有人拿到了hdfs超级管理员帐号,直接把数据rm -rf怎么办?有了Kerberos,就可以轻松防止这样的事情发生。Kerberos 协议实现了比“质询-响应”模式协议更高的安全性:第一,在身份验证过程中,所有的数据都使用不同的密码进行加密,避免了相关验证信息的泄漏;第二,客户端和服务器会相互验证对方的身份,避免了 中间人攻击 ;第三,客户端和服务器间的时间差被严格限制,避免了 回放攻击 。与 WINDOWS 系统中的 用户安全令牌 类似, Kerberos 服务通过“ 加密的票据(防止篡改) ”验证用户身份和提供用户访问权限;Kerberos 服务可以通过使用 会话密钥 确保在会话中数据的机密性和完整性。

Kerberos相关术语

Kerberos认证过程

Kerberos 的认证过程如下图所示。我们可以简单的理解为,User 或者 Service 会用 Principal 到 AS 去认证(KRB_AS_REQ),AS 会返回一个用 Principal Key 加密的 TGT(KRB_AS_REP),这时候只有 AS 和这个 Principal 的使用者可以识别该 TGT。在拿到加密的 TGT 之后,User 或者 Service 会使用 Principal 的 Key 来解密 TGT,并使用解密后的 TGT 去 TGS 获取 Service Ticket(KRB_TGS_REQ, KRB_TGS_REP)。在 Kerberos 认证的集群中,只有拿着这个 Service Ticket 才可以访问真正的 Server 从而实现自己的业务逻辑(KRB_AP_REQ, KRB_AP_REP)。一般我们将 TGT 的存放文件,称为 Kerberos Confidential 文件,默认的存放目录为/tmp,文件名则由 krb5cc 和用户的 id 组成,例如“/tmp/krb5cc_0”为root的 confidential 文件。

图示:Kerberos 认证过程

Cloudera平台集成Kerberos

Cloudera提供了非常简便的Kerberos集成方式,基本做到了自动化部署。

系统:CentOS 7.2

操作用户:admin

角色分布如下:

角色部署节点机器类型
KDC, AS, TGS192.168.1.1VM
Kerberos Agent192.168.1.[2-17]VM、Master、Slave

假设list_krb_clients文件如下:

192.168.1.2
192.168.1.3
192.168.1.4
192.168.1.5
192.168.1.6
192.168.1.7
192.168.1.8
192.168.1.9
192.168.1.10
192.168.1.11
192.168.1.12
192.168.1.13
192.168.1.14
192.168.1.15
192.168.1.16
192.168.1.17

JDK安装

此过程网上太多教程,不复述。

Kerberos安装

在192.168.1.1上安装服务端:

sudo yum install krb5-server openldap-clients -y

在192.168.1.[2-17]上安装客户端:

sudo pssh -h list_krb_clients -P -l admin -A "sudo yum install krb5-devel krb5-workstation -y"

修改配置

修改krb5.conf,请替换DOMAIN.COM为自定义域名:

[logging]
default = FILE:/var/log/krb5libs.log
kdc = FILE:/var/log/krb5kdc.log
admin_server = FILE:/var/log/kadmind.log[libdefaults]
default_realm = DOMAIN.COM
dns_lookup_realm = false
dns_lookup_kdc = false
ticket_lifetime = 24h
renew_lifetime = 7d
forwardable = true[realms]
DOMAIN.COM = {kdc = 192.168.1.1admin_server = 192.168.1.1
}[domain_realm]
.domain.com = DOMAIN.COM
domain.com = DOMAIN.COM

分发krb5.conf至所有client:

pscp -h list_krb_clients krb5.conf /tmp
pssh -h list_krb_clients "sudo cp /tmp/krb5.conf /etc"

修改服务端192.168.1.1上的配置文件/var/kerberos/krb5kdc/kdc.conf

[kdcdefaults]
kdc_ports = 88
kdc_tcp_ports = 88[realms]
DOMAIN.COM = {master_key_type = aes256-ctsacl_file = /var/kerberos/krb5kdc/kadm5.acldict_file = /usr/share/dict/wordsadmin_keytab = /var/kerberos/krb5kdc/kadm5.keytabsupported_enctypes = aes256-cts:normal aes128-cts:normal des3-hmac-sha1:normal arcfour-hmac:normal des-hmac-sha1:normal des-cbc-md5:normal des-cbc-crc:normalmax_life = 25hmax_renewable_life = 8d
}

修改服务端192.168.1.1上的配置文件/var/kerberos/krb5kdc/kadm5.acl,以允许具备匹配条件的admin用户进行远程登录权限:

*/admin@DOMAIN.COM *

由于要支持Java的aes256-cts算法,需要Server和Client都安装JCE,在192.168.1.1上执行:

sudo wget http://download.oracle.com/otn-pub/java/jce/8/jce_policy-8.zip
sudo unzip jce_policy-8.zip
sudo mv UnlimitedJCEPolicyJDK8/*.jar $JAVA_HOME/jre/lib/security
pscp -h list_krb_clients $JAVA_HOME/jre/lib/security/US_export_policy.jar /tmp
pscp -h list_krb_clients $JAVA_HOME/jre/lib/security/local_policy.jar /tmp
pssh -h list -l admin -A "sudo cp /tmp/US_export_policy.jar $JAVA_HOME/jre/lib/security/"
pssh -h list -l admin -A "sudo cp /tmp/local_policy.jar $JAVA_HOME/jre/lib/security/"

创建Kerberos数据库

在192.168.1.1上对数据库进行初始化,默认的数据库路径为/var/kerberos/krb5kdc,如果需要重建数据库,将该目录下的principal相关的文件删除即可,请牢记数据库密码。

sudo kdb5_util create -r DOMAIN.COM -s

启动Kerberos服务

在192.168.1.1上执行:

# 启动服务命令
sudo /bin/systemctl start krb5kdc
sudo /bin/systemctl start kadmin
# 加入开机启动项
sudo /bin/systemctl enable krb5kdc
sudo /bin/systemctl enable kadmin

创建Kerberos管理员principal

# 需要设置两次密码
kadmin.local -q "addprinc cdh-master/admin"

principal的名字的第二部分是admin,那么根据之前配置的acl文件,该principal就拥有administrative privileges,这个账号将会被CDH用来生成其他用户/服务的principal。注意需要先kinit保证已经有principal缓存。Kerberos客户端支持两种,一是使用 principal + Password,二是使用 principal + keytab,前者适合用户进行交互式应用,例如hadoop fs -ls这种,后者适合服务,例如yarn的rm、nm等。

Cloudera整合Kerberos

在此之前,请确保以下前序工作完成:

  • KDC已经安装好并且正在运行

  • 将KDC配置为允许renewable tickets with non-zerolifetime,我们在之前修改kdc.conf文件的时候已经添加了max_lifemax_renewable_life这个2个属性,前者表示服务端允许的Service ticket最大生命周期,后者表示服务端允许的Service ticket更新周期。这2个属性必须分别大于等于客户端对应的配置ticket_lifetimerenew_lifetime。我们假设,不这样进行配置:ticket_lifetime = 8d, max_life = 7d, renew_lifetime = 25h, max_renew_life = 24h,那么可能造成的结果就是当service持有的票据超过24小时没有去更新,在第24.5小时的时候去进行更新,请求会遭到拒绝,报错:Ticket expired while renewing credentials,永远无法进行正常更新。对于Cloudera来说,因为更新机制被透明(Cloudera有renew进程会去定期更新),即使我们手动使用``modprinc -maxrenewlife 1week krbtgt/DOMAIN.COM@DOMAIN.COM` 进行更新,也无济于事。

  • 在Cloudera Manager Server上安装openldap-clients;

  • 为Cloudera Manager创建了超级管理员principal,使其能够有权限在KDC中创建其他的principals;

再次确认完毕后进入如下步骤:

  1. 进入 Cloudera Manager Admin Console 界面并且点击 cluster 右边的按钮选择Enable Kerberos

  2. 点击 Continue,进入下一页进行配置,要注意的是:这里的 Kerberos Encryption Types 必须跟KDC实际支持的加密类型匹配(即kdc.conf中的值),这里使用了默认的aes256-cts,注意,这里的 Kerberos Encryption Types 必须和/etc/krb5.conf中的default_tgs_enctypesdefault_tkt_enctypespermitted_enctypes三个选项的值对应起来,不然会出现集群服务无法认证通过的情况!

  3. 点击 Continue,进入下一页,这一页中不勾选 Manage krb5.conf through Cloudera Manager ,否则会修改掉之前配置的acl,造成 enable kerberos 失败;

  4. 点击 Continue,进入下一页,输入 Cloudera Manager Principal 的管理员账号和密码,注意输入账号的时候要使用@前要使用全称,本文使用的是cdh-master/admin@DOMAIN.COM

  5. 点击 Continue,进入下一页,导入 KDC Account Manager Credentials

  6. 点击 Continue,进入下一页,Restart Cluster 并且Eenable Kerberos

之后 Cloudera Manager 会自动重启集群服务,启动之后会提示 Kerberos 已启用。在 Cloudera Manager 上启用 Kerberos 的过程中,会自动做以下的事情:

  • 集群中有多少个节点,每个账户就会生成对应个数的 principal ;

  • 为每个对应的 principal 创建 keytab;

  • 部署 keytab 文件到指定的节点中;

  • 在每个服务的配置文件中加入有关 Kerberos 的配置;

其中包括Zookeeper服务所需要的 jaas.conf 和 keytab 文件都会自动设定并读取,如果用户仍然手动修改了Zookeeper的服务,要确保这两个文件的路径和内容正确性。

  • keytab 是包含 principals 和加密 principal key 的文件 ;

  • keytab 文件对于每个 host 是唯一的,因为 key 中包含 hostname ;

  • keytab 文件用于保存纯文本密码,实现到 kerberos上 验证一个主机的 principal ;

启用之后访问集群的所有资源都需要使用相应的账号来访问,否则会无法通过 Kerberos 的 authenticatin。

除此之外,对于特定的服务需要做额外配置,本文只介绍HDFS、YARN、HBase,其余服务请参照官方文档自行进行配置。

对于HDFS,需要开启Web Concole 的认证,以防未认证用户访问资源界面,请在HDFS服务的Configuration中进行配置:

Enable Kerberos Authentication for HTTP Web-Consoles = true

对于YARN,需要开启Web Concole 的认证,以防未认证用户访问资源界面,请在YARN服务的Configuration中进行配置:

Enable Kerberos Authentication for HTTP Web-Consoles = true

对于HBase需要开启 Thrift 认证:

HBase Thrift Authentication = auth

完成修改后,通过Cloudera Manager对HDFS服务进行重启。

相关测试

完成部署后,需要进行相关测试,以验证Kerberos是否被正常开启,本文纯属抛砖引玉,对部分服务进行了验证。

基本功能测试

在192.168.1.1 KDC 服务端上新建principal:

kadmin.local -q "addprinc <user_name>/DOMAIN.COM@DOMAIN.COM"

在客户端192.168.1.2上新建principal:

kinit cdh-master/admin@DOMAIN.COM
kadmin -q "addprinc <user_name>/DOMAIN.COM@DOMAIN.COM"

销毁ticket缓存:

kdestroy

查看当前ticket缓存,这时应会报错No credentials cache found (ticket cache FILE:/tmp/krb5cc_0)

klist -f

重新获取ticket:

kinit <user_name>/DOMAIN.COM@DOMAIN.COM

查看当前ticket缓存,应该不会报错:

klist -f

Hive功能测试

CLI测试,首先进行principal初始化

kadmin -q "addprinc hive/test@DOMAIN.COM"
kinit hive/test@DOMAIN.COM

在没有配置 kerberos 之前,想要通过 hive 用户运行 hive 命令需要执行sudo,现在配置了 kerberos 之后,不再需要 sudo 了,hive 会通过 ticket 中的用户去执行该命令:

CREATE DATABASE test;
USE test;
CREATE TABLE t(id int);
DROP TABLE t;
DROP DATABASE test;

Beeline/JDBC测试:

beeline --verbose=true
beeline > !connect jdbc:hive2://${HIVE_SERVER2_HOSTNAME}:10000/default;principal=hive/${HIVE_SERVER2_HOSTNAME}@DOMAIN.COM;

HUE Sqoop Action测试,唯一需要注意的是,在提交 Action的时候需要选择credential方式,hive shell action请选择 hcat,hive server2 action 请选择hive2,否则无法通过认证。

HBase on HUE功能测试

这里我们需要测试的是在HUE界面中进行HBase查询。在使用HBase时,如果登录HUE时使用的是admin身份,admin会伪装成hue用户发起命令,所以需要使用hbase的超级用户hbase去给hue赋权,才可以使其具备权限,才可以在HUE界面进行HBase查询:

kdestroy
kinit cdh-master/admin
kadmin > addprinc hbase/test@DOMAIN.COM
kinit hbase/test@DOMAIN.COM
hbase shell
hbase shell > grant 'hue','RWXCA'

Sqoop on HUE功能测试

在Hue界面进行操作,添加sqoop1作业:

sqoop list-databases --connect jdbc:mysql://${MYSQL_SERVER_FQDN}:3306 --username ${MYSQL_USERNAME} --password ${MYSQL_PASSWD}
sqoop import --connect jdbc:mysql://${MYSQL_SERVER_FQDN}:3306/cm --username ${MYSQL_USERNAME} --password ${MYSQL_PASSWD} --table HOSTS --target-dir /user/admin/tgt -m 1 --delete-target-dir

如何在HUE中提交作业,这里不进行复述。

遇到的问题

Q: kerberos ticket renewer 服务报:Ticket expired while renewing credentials

A: 这是因为TGT的ticketkrbtgt/DOMAIN.COM@DOMAIN.COMrenewlife被设置成了0,这一点可以通过kadmin => getprinc krbtgt/DOMAIN.COM@DOMAIN.COM看出来。将krbtgt/DOMAIN.COM@DOMAIN.COMrenewlife修改为 7d 即可,方法:

modprinc -maxrenewlife 1week krbtgt/DOMAIN.COM@DOMAIN.COM

Q: 提交Spark作业时报错:Delegation Token can be issued only with kerberos or web authentication

A: 提交spark作业的时候需要指定

spark master = yarn
mode = cluster

Q: Beeline报错,Failed to find any Kerberos tgt

A: 因为sudo权限下生成的credetial不能用于非sudo权限下的beeline,也就是说不要在申请ticket的时候使用sudo,在执行beeline的时候使用非sudo。

欢迎点赞+收藏+转发朋友圈素质三连

文章不错?点个【在看】吧! ????

这篇关于Step by Step 实现基于 Cloudera 5.8.2 的企业级安全大数据平台 - Kerberos的整合的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1143106

相关文章

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

使用Python实现IP地址和端口状态检测与监控

《使用Python实现IP地址和端口状态检测与监控》在网络运维和服务器管理中,IP地址和端口的可用性监控是保障业务连续性的基础需求,本文将带你用Python从零打造一个高可用IP监控系统,感兴趣的小伙... 目录概述:为什么需要IP监控系统使用步骤说明1. 环境准备2. 系统部署3. 核心功能配置系统效果展

Python实现微信自动锁定工具

《Python实现微信自动锁定工具》在数字化办公时代,微信已成为职场沟通的重要工具,但临时离开时忘记锁屏可能导致敏感信息泄露,下面我们就来看看如何使用Python打造一个微信自动锁定工具吧... 目录引言:当微信隐私遇到自动化守护效果展示核心功能全景图技术亮点深度解析1. 无操作检测引擎2. 微信路径智能获

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

Python中pywin32 常用窗口操作的实现

《Python中pywin32常用窗口操作的实现》本文主要介绍了Python中pywin32常用窗口操作的实现,pywin32主要的作用是供Python开发者快速调用WindowsAPI的一个... 目录获取窗口句柄获取最前端窗口句柄获取指定坐标处的窗口根据窗口的完整标题匹配获取句柄根据窗口的类别匹配获取句

在 Spring Boot 中实现异常处理最佳实践

《在SpringBoot中实现异常处理最佳实践》本文介绍如何在SpringBoot中实现异常处理,涵盖核心概念、实现方法、与先前查询的集成、性能分析、常见问题和最佳实践,感兴趣的朋友一起看看吧... 目录一、Spring Boot 异常处理的背景与核心概念1.1 为什么需要异常处理?1.2 Spring B

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Python位移操作和位运算的实现示例

《Python位移操作和位运算的实现示例》本文主要介绍了Python位移操作和位运算的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 位移操作1.1 左移操作 (<<)1.2 右移操作 (>>)注意事项:2. 位运算2.1

如何在 Spring Boot 中实现 FreeMarker 模板

《如何在SpringBoot中实现FreeMarker模板》FreeMarker是一种功能强大、轻量级的模板引擎,用于在Java应用中生成动态文本输出(如HTML、XML、邮件内容等),本文... 目录什么是 FreeMarker 模板?在 Spring Boot 中实现 FreeMarker 模板1. 环

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义