大数据集群部署规划(一)关于节点的定义

南墨2个月前技术文章163

节点定义:

  • CDH集群节点定义

CDH 官方文档有一份更详细的节点和角色配置,官网将主机分成以下四种类型:
1) Master hosts run Hadoop master processes such as the HDFS NameNode and YARN Resource Manager.
2) Utility hosts run other cluster processes that are not master processes such as Cloudera Manager and the Hive Metastore.
3) Gateway hosts are client access points for launching jobs in the cluster. The number of gateway hosts required varies depending on the type and size of the workloads.
4) Worker hosts primarily run DataNodes and other distributed processes such as Impalad.

20 - 80 Worker Hosts with High Availability

80 - 200 Worker Hosts with High Availability

  • 华为集群定义:

1)管理节点:Management Node (MN),用于安装Manager,即集群的管理系统。FusionInsight Manager对部署在集群中的节点及服务进行集中管理。

2)控制节点:Control Node (CN),控制节点控制并监控数据节点执行存储数据、接收数据、发送 进程状态及完成控制节点的公共功能。控制节点包括HMaster、HiveServer、ResourceManager、 NameNode、JournalNode、SlapdServer等。

3)数据节点Data Node (DN),执行管理节点发出的指示,上报任务状态、存储数据,以及执行数 据节点的公共功能。数据节点包括DataNode、RegionServer、NodeManager等。


  • E-MapReduce集群定义

1)Master节点选型

    • Master节点主要部署Hadoop的Master进程。例如,NameNode和ResourceManager等。

    • 生产集群建议打开高可用HA,E-MapReduce的HDFS、YARN、Hive和HBase等组件均已实现HA。生产集群建议在创建集群的硬件配置步骤开启高可用。如果购买时未开启高可用,在后续使用过程中无法开启高可用功能。

    • Master节点主要用来存储HDFS元数据和组件Log文件,属于计算密集型,对磁盘IO要求不高。HDFS元数据存储在内存中,建议根据文件数量选择16 GB以上内存空间。

2)Core节点选型

    • Core节点主要用来存储数据和执行计算,运行DataNode和Nodemanager。

    • HDFS数据量大于60 TB,建议采用本地盘实例(ECS.d1,ECS.d1NE),本地盘的磁盘容量为(CPU核数/2)*5.5TB*实例数量例如,购买4台8核D1实例,磁盘容量为8/2*5.5*4 台=88 TB。因为HDFS采用3备份,所以本地盘实例最少购买3台,考虑到数据可靠性和磁盘损坏因素,建议最少购买4台。

    • HDFS数据量小于60 TB,可以考虑高效云盘和SSD云盘。

3)Task节点选型Task节点主要用来补充Core节点CPU和内存计算能力的不足,节点并不存储数 据,也不运行DataNode。您可以根据CPU和内存需求来估算实例个数。

  • 其他称呼

1)core节点:用来运行hdfs、hive、hbase等组件实例,起到控制和调度集群的作用

2)worker节点:实际承担计算的节点,主要部署regionserver、nodemanager、datanode


相关文章

SQL Server优化入门系列(四)——  找到Top SQL

SQL Server优化入门系列(四)—— 找到Top SQL

说明从会话信息中我们可以查看实例当前正在运行的SQL、当前被Block的SQL。但是如果要查看过去一段时间执行的SQL,我们有几个选择1、通过外部SQL审计平台记录所有SQL。2、通过SQL Serv...

ES运维(五)聚合分析流程及精准度

ES运维(五)聚合分析流程及精准度

1、 概述ES是一个近实时的搜索引擎,提供近实时海量数据的聚合分析功能,但这个海量数据聚合分析是会损失一定的精准度来满足实时性能需要的。 2、 分布式系统的近似统计算法如下图,在分布式数据分...

Linux进程管理详解

Linux进程管理详解

1 进程分类系统进程可以执行内存资源分配和进程切换等管理工作,而且该进程的运行不受用户的干预,即使是root用户也不能干预系统进程的运行。用户进程通过执行用户程序、应用程序或内核之外的系统程序而产生的...

CDH实操--客户端安装

CDH实操--客户端安装

概述安装CDH客户端,主要是方便在CDH部署节点以外,通过客户端的方式连接CDH上的hdfs,hive和hbase服务1、安装jdk(适配CDH即可,一般1.8)2、获取安装包3、部署安装包把安装包解...

企业级大数据安全架构(二)

企业级大数据安全架构(二)

2安全方案2.1 Knox访问控制Apache Knox是一个通过REST API和UI与Apache Hadoop 部署交互的应用网关。Knox网关为所有与Hadoop集群的REST和HTTP交互提...

MySQL DBA 常用工具 SQL

MySQL DBA 常用工具 SQL

【前言】本篇文章介绍一些 MySQL 管理的实用语句及适用的场景。SQL 基于 MySQL 5.7 版本。1. 长事务事务长时间未提交,即使状态为Sleep也可能造成一些锁等待的问题,使用该查询可以查...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。