EasyMR如何为服务开启Kerberos

雅泽2年前 (2023-10-26)技术文章637

一、Hadoop为什么需要安全

最早部署Hadoop集群时并没有考虑安全问题，未开启安全认证时，Hadoop 是以客户端提供的用户名作为用户凭证，一般即是发起任务的Unix 用户。一般线上机器部署服务会采用统一账号，当以统一账号部署集群时，所有执行 Hadoop 任务的用户都是集群的超级管理员，容易发生误操作。即便是以管理员账号部署集群，恶意用户在客户端仍然可以冒充管理员账号执行。随着集群的不断扩大，各部门对集群的使用需求增加，集群安全问题就显得颇为重要。说到安全问题，一般包括如下方面:

用户认证(Authentication) 即是对用户身份进行核对，确认用户即是其声明的身份，这里包括用户和服务的认证。
用户授权(Authorization) 即是权限控制，对特定资源，特定访问用户进行授权或拒绝访问。用户授权是建立再用户认证的基础上，没有可靠的用户认证谈不上用户授权。

二、EMR是如何接管Hadoop安全

EMR Hadoop 的安全认证是基于 Kerberos 实现的，集成LDAP用户体系。 Kerberos 是一个网络身份验证协议，用户只需输入身份验证信息，验证通过获取票据即可访问多个接入 Kerberos 的服务，机器的单点登录也可以基于此协议完成的。 Hadoop 本身并不创建用户账号，而是使用 Kerberos 协议来进行用户身份验证，从Kerberos凭证中的用户信息获取用户账号，这样一来跟实际用户运行的账号也无关。

1、集群账号管理

原先我们使用单一账号作为集群管理员，且这一账号为线上统一登录账号，这存在极大的安全隐患。我们需要使用特殊账号来管理集群。这里涉及的问题是，我们需要几个运维账号呢? 一种简单的做法是使用一个特殊运维账号， CDH 和 Apache官方也都推荐按服务划分分账号来启动集群。

考虑到精细化控制可以有效避免误操作，EMR遵循官方的建议使用多账号，使用Hadoop作为同一用户组，每个组件使用单独的用户。如果是从单一运维账号迁移到多个账号部署时，则需要考虑相关文件权限问题，包括本地以及hdfs两部分，这可以在安全部署上线时完成相应改动。

EMR 组件服务运行的用户信息可以配置在产品包服务层级下，以服务hdfs_namenode为例：

hdfs schema

User	Group	Service
hdfs	hadoop	hdfs_namenode，hdfs_datanode，hdfs_journalnode
yarn	hadoop	hadoop，yarn_resourcemanager，yarn_nodemanager，jobhistory
spark	hadoop	thriftserver，spark
hive	hadoop	hive，hivemetastore，hiveserver2
hbase	hadoop	hbase，hbase_master，hbase_regionserver

大数据服务集群用户

2、用户账号管理

考虑到每个团队下会有不同的小组，每个小组都有使用 Hadoop 来进行大数据处理需求，故需要一定程度的多租户环境，这里主要考虑其中的数据和操作的权限问题，EMR集成了LdapServer目录服务系统，其功能优势具体如下：

1、LdapServer能够减少用户账户管理人员在面对用户数量大、增长快的情况下对账号的创建、回收、权限管理、安全审计等一系列复杂而繁琐工作的压力。

2、LdapServer能够解决多层次、多类型系统、数据库的安全访问难题，所有与账号相关的管理策略均配置在服务端，实现了账号的集中维护和管理。

3、LdapServer能够充分继承和利用平台组织中现有的账户管理系统的身份认证功能，并实现了账户管理与访问控制管理的分离，提高了大数据平台访问认证的安全性

三、EMR如何部署Hadoop安全

EMR可以支持Hadoop，Hive，Spark，Ranger组件开启Kerberos功能，每个组件的开启操作基本一致。下面以开启Hadoop Kerberos功能为例

1、准备产品包

组件名	版本号	服务名称
DTBase	2.1.22-1	mysql，zookeeper
Openldap	2.4.44-1	berkeleydb，nslcd，openldap
Hadoop	3.2.1_3-KB	hadoop_pkg，hdfs_journalnode，hdfs_namenode，hdfs_zkfc，hdfs_datanode，hdfs_datanode，jobhistory，yarn_resourcemanager，yarn_nodemanager，timelineserver
Kerberos	1.15.1_1	kerberos_pkg，kdcserver，kadminserver