Elasticsearch数据规划

南墨2年前技术文章558

1.1 为什么数据规划很重要

任何系统都有一套更为适用的规则或者其系统规格,前期的详细设计能为我们后期维护优化节约大量的精力。在我们实际的经验中,发现大部分问题(分片严重超规格,单个分片超大,索引mapping设置不合理等问题)都是由于数据的前期规划不够,大大增加了后期整改和优化的难度和成本。

在进行数据规划之前,首先要对数据有充分的了解,包括不限于:

l   数据量有多大,包括总量,增量,以及未来的趋势?

l   数据的生命之旅是怎么样的,即从写入到删除的过程?

l   我们期望从数据里面挖掘出什么,即数据是用来做什么的?

1.2 合理的规格

常见的系统规格如下所示:

Elasticsearch集群实例数

建议控制在300EsNode实例范围内

Elasticsearch集群支持的最大shard

建议控制在5万以内

EsNode实例,最大shard

建议控制在500以内

shard支持存储的数据量

建议单个shard大小20-30GB

EsNode实例,最大存储量

建议单个EsNode存储数据5TB以内

index分片总数

建议控制在EsNode实例个数的2倍以内

index字段个数

建议控制在1024个字段范围内

单批次查询返回的数据量

建议控制在10000以内

 

1.3 分片如何规划

每个分片都可以处理索引和查询请求,在设定分片数目时,可从以下几个方面考虑:

l   建议单个分片保存的数据量在20GB左右,最大不超过30GB,过大的分片会降低查询以及索引恢复的性能。

l   根据索引预计承载的最大数据容量和单个分片容量确定主分片个数。

l   为了提升数据可靠性,合理设置副本分片个数,至少设置为1,如果集群的存储空间足够,推荐设置为2

l   每个node可以支撑的shards个数是有限的,node是物理资源分配的对象,随着shards中数据的增大,shards中的数据在查询时被不断加载到内存,达到一定量时,将会把HeapSize耗尽,导致频繁GC,系统将不能正常工作。推荐1GB内存管理15shard,以一个Elasticsearch实例内存最大31G为例,单实例管理的shard数保持在500以内。

l   配置total_shards_per_node参数,让分片更加均匀的分布在各个实例上。表示限制每个实例上分布该该索引的分片最大个数,如2,即表示每个实例上最多分布2个该索引的分片。

l   说明:total_shards_per_node参数值=索引总分片数/数据实例数(向上取整)。


相关文章

开源大数据集群部署(十六)Hadoop集群部署(一)

按照上文中hadoop集群规划进行安装。1 HADOOP集群安装在hd1.dtstack.com主机root权限下安装hadoop集群Ø 解压[root@hd1.dtstack.com softwar...

8.0 新特性-Generated Invisible Primary Key

8.0 新特性-Generated Invisible Primary Key

说明MySQL Innodb 引擎采用的是 IOT(索引组织表)存储方式,主键的重要性就不言而喻。在早期版本用户如果没有显式指定主键,会自动生成隐藏主键 row_id 来组织 B+ 树,隐藏主键 ro...

Oracle数据库恢复演练

1、演练目的验证核心系统数据库备份的有效性,在极端数据库故障情况下保证数据库存在一份可用的备份文件,为业务数据的安全提供保障。 2、演练准备提供一台2C16G本地60G的阿里ecs服务器,操...

docker日志管理

docker日志管理

docker的日志分类 一、Docker 引擎日志(也就是 dockerd 运行时的日志)Ubuntu14.04: /var/log/upstart/docker.logCentos 6/7或ubun...

Kafka监控

1.监控健康状态为了了解 Kafka 的运作状态和性能状况需要对 Kafka 进行监控和诊断,通过Kafka提供的监控工具和插件可以诊断出 Kafka 的异常、错误、瓶颈和故障等问题并及时采取对应的措...

oracle安装实例的响应文件模板解析

位置在:db解压目录下database/response/dbca.rsp###############################################################...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。