大数据集群部署规划(二)硬件配置要求

南墨2年前技术文章2262

CPU(虚拟机建议配置*2)

    • X86服务器:

最低配置:双路4核Intel处理器。

推荐配置:双路8核Intel处理器。

    • ARM服务器:

双路32核ARM处理器

Bit-mode

    • 64位

内存(虚拟机不建议超分)

    • 物理内存不少于32GB

    • 大集群(100节点以上)推荐单节点128GB~512GB内存

网卡

    • GE光口bond

    • 大集群推荐10GE光口bond及以上配置

磁盘RAID配置

    • 操作系统盘:独占一个RAID组,且RAID组级别为RAID1

    • 元数据盘(nn、jn、zk、hive元数据所在磁盘,如共盘请确保磁盘安全稳定):独占一个RAID组,且RAID组级别为RAID1

    • 数据盘:配置RAID0或无RAID

    • 也可采用共享存储和分布式存储的方式减少存储压力

磁盘空间

    • 操作系统盘>100Gb

    • 元数据盘>100GB

    • 数据盘>200GB

磁盘类型

本地盘

SSD

即固态硬盘,具有较高的读写性能。但通常存储容量较小,单位存储成本比普通机械硬盘高。由于NVMe SSD盘不支持配置RAID1,建议配置OS盘或元数据盘时建议采用SAS SSD,建议元数据盘采用此种磁盘。

     当数据量处于TB级别以上时,推荐使用本地盘,磁盘直接挂载在计算节点上,性能高于云盘。本地盘不能选择磁盘数量,只能使用默认配置好的数量,数据也没有后端的备份机制,需要上层的软件来保证数据可靠性。

DISK(HDD

DISK即普通机械硬盘,包括SATA和SAS类型。是HDFS用于保存数据的主力存储类型。DISK是大数据平台当前主要使用的磁盘存储类型。对于速度要求高的可以使用SSD类型的磁盘。

例如:阿里云E-MapReduce HDFS数据量大于60 TB,建议采用本地盘实例(ECS.d1,ECS.d1NE)

云盘

SSD云盘

具备稳定的高随机读写性能、高可靠性的高性能云盘产品。

建议在I/O密集型应用、中小型关系数据库和NoSQL数据库等场景中使用。

     当业务数据量处于TB级别以下时,推荐使用云盘,云盘的IOPS和吞吐相比本地盘都会小些。

     磁盘不直接挂载在本地的计算节点上,而是通过网络访问远端的一个存储节点。每一份数据在后端都有两个实时备份,一共三份数据。当一份数据损坏时(磁盘损坏,不是业务上的破坏)

高效云盘

具备高性价比、中等随机读写性能、高可靠性的云盘产品。

建议在开发与测试业务和系统盘等场景中使用。例如:阿里云EMR,HDFS数据量小于60 TB,可以考虑高效云盘和SSD云盘。

ESSD云盘

基于新一代分布式块存储架构的超高性能云盘产品,结合25GE网络和RDMA技术,单盘可提供高达100万的随机读写能力和更低的单路时延能力。

建议在大型OLTP数据库、NoSQL数据库和ELK分布式日志等场景中使用。例如阿里云E-MapReduce默认使用ESSD云盘作为集群的系统盘。系统盘默认是一块。

性能对比:磁盘性能为SSD本地盘 > SSD云盘 > 本地盘 > 高效云盘。

注:关于云盘,这里参考的是阿里云的块存储:

https://help.aliyun.com/document_detail/63136.html


相关文章

大数据集群二次开发及调优使用指导(三)-Hive

大数据集群二次开发及调优使用指导(三)-Hive

1.   业务调优:Hive业务的业务主要以批量处理作业为主,批处理主要特点是耗时时间长,消耗的资源比较多,主要的调优和设计推荐如下:1.   &nb...

K3S部署和使用

K3S部署和使用

k3s介绍k3s是一个高可用的、经过CNCF认证的Kubernetes发行版,专为无人值守、资源受限、偏远地区或物联网设备内部的生产工作负载而设计。k3s安装参考文件使用配置文件安装k3s为了保证k3...

Phoenix SQLLine快速使用

Phoenix SQLLine快速使用

1、启动在Phoenix主目录下bin文件夹中,执行以下命令:bin/sqlline.py master其中master为Zookeeper中的节点,如果有多个节点,中间使用逗号分开。执行该命令后,客...

ElasticSearch shard&replica机制梳理和创建index图解

ElasticSearch shard&replica机制梳理和创建index图解

1、shard&replica的机制梳理1个index包含多个shard。一个shard包含index的部分数据每个shard都是最小的工作单元,承载部分数据,lucene实例,完整的建立索引...

分布式存储-GlusterFS

分布式存储-GlusterFS

一、分布式存储介绍我们知道NAS是远程通过网络共享目录, SAN是远程通过网络共享块设备。那么分布式存储你可以看作拥有多台存储服务器连接起来的存储输出端。把这多台存储服务器的存储合起来做成一个整体再通...

MySQL运维实战(4.4) SQL_MODE之STRICT_TRANS_TABLES和STRICT_ALL_TABLES

如果设置STRICT模式,则如果数据写入时,如果数据不符合字段定义(字符串超出长度、数值类型数据超出范围、违反not null约束等),SQL会报错。如果不设置STRICT模式,会对异常数据进行截断处...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。