Elasticsearch数据生命周期如何规划

南墨11个月前技术文章359

Elasticsearch中的open状态的索引都会占用堆内存来存储倒排索引,过多的索引会导致集群整体内存使用率多大,甚至引起内存溢出。所以需要根据自身业务管理历史数据的生命周期,如近3个月的数据open用于快速查询;过去3-6月的数据索引close以释放内存,需要时再开启;超过6个月的可以删除索引。

可以使用索引模板的方式按照一定时间创建新的索引,例如按天创建索引,索引的命名可能是index-yyyy-mm-dd,每天生成不同的索引,清除历史数据时可直接关闭或删除。

1.滚动索引

当一个索引过大或者过于陈旧时,滚动索引可以将索引的别名滚动到一个新的索引上,这个新的索引结构与旧索引结构相同。

滚动索引API需要指定一个索引别名和条件。发送请求时这个索引别名需要指向一个可以写入的索引,否则请求将无效。

索引别名:

指定的索引别名有以下两种情况:

(1)如果别名指向一个索引,is_write_index未配置,此时旧索引别名将滚动到新索引上,同时旧索引别名将被删除;

(2)如果索引别名指向一个或者多个索引,同时有一个或者多个索引的is_write_index设置为true,此时,这些可写入的索引将滚动别名同时将is_write_index设置为false,将别名滚动到新的索引同时将新索引的is_write_index设置为true。

滚动条件:

滚动索引的API支持三个条件,如下所示。

参数名称

参数说明

max_age

索引最大年龄,单位支持d(天)、h(时)、m(分钟)、s(秒)

max_docs

索引应该包含最大的文档数,不包含索引副本的文档数量

max_size

索引主分片的最大估算大小,单位支持pb(PB)、tb(TB)、gb(GB)、mb(MB)、kb(KB)

 

当发出滚动请求的时候指定索引满足设定条件中的任意一个或者多个索引将会被滚动,如果不满足则不会滚动,elasticsearch暂不提供监听功能,需要滚动时需要手动触发。

索引命名规则:

滚动索引的命名必须满足一定规则否则无法正常滚动索引或者需要手动指定新的索引名称。

1.       以-和数字结尾:如果现有索引名称以-和数字结尾例如log-1,新的索引名称将会根据现有数字大小加1,无论就得索引名称如何,新的索引的编号数字都会填充为6位,log-1索引滚动后新的索引名称为log-000002。

2.       使用日期计算:新索引的命名也支持用滚动日期来命名,要求索引名称同样以-加数字结尾,比如log-2019.08.28-1,如果当天滚动索引的话新的索引名称为log-2019.08.28-000002,如果一天后滚动新的索引名称为log-2019.08.29-000002。

也可以用日期计算进行创建索引并设定别名,如以下操作将会创建logs-2019.08.28-1索引,别名为logs_write:

# PUT /<logs-{now/d}-1> with URI encoding:
PUT /%3Clogs-%7Bnow%2Fd%7D-1%3E
{
"aliases": {
"logs_write": {}
}
}

3.       日期计算:

日期计算的格式为:

<static_name{date_math_expr{date_format|time_zone}}>

参数说明为:

参数名称

说明

static_name

是名称的 static text( 静态文本)部分

date_math_expr

是动态计算日期的动态 date math 表达式

date_format

是计算日期应呈现的可选格式。默认是 YYYY.MM.dd

time_zone

是可选的时区。默认为 utc 。

 

日期计算表达式只支持公历。

必须将 date math 索引名称表达式包含在尖括号中,并且所有的特殊字符都应进行 URI 编码。例如 :

GET /%3Clogstash - %7Bnow %2Fd %7D %3E / _search
{
"query": {
"match": {
"test": "data"
}
}
}

用于日期计算的特殊字符必须按照如下 URI 编码 :

%3C

%3E

/

%2F

{

%7B

}

%7D

|

%7C

+

%2B

:

%3A

,

%2C

 

以下示例显示了不同形式索引表达式和它们解析的最终索引名称,给定的当前时间是 2024 年 3 月 22 日 utc。

表达

结果

<logstash-{now/d}>

logstash-2024.03.22

<logstash-{now/M}>

logstash-2024.03.01

<logstash-{now/M{YYYY.MM}}>

logstash-2024.03

<logstash-{now/M-1M{YYYY.MM}}>

logstash-2024.02

<logstash-{now/d{YYYY.MM.dd|+12:00}}>

logstash-2024.03.23

 

如果索引中要使用{},需要使用反斜杠“\”进行转义处理,例如:<elastic\\{ON\\}-{now/M}>的结果为elastic{ON}-2024.03.01。

4.       自定义的索引名称:如果索引名称不满足以-加数字结尾,比如log,此时如果不指定新的索引名称请求会报错,自定义新的索引名称请求如下:

POST /test/_rollover/log_new
{
"conditions": {
"max_age": "1m",
"max_docs":"1000",
"max_size":"5gb "
}
}

如果滚动成功的话会生成log_new索引。

设置新的索引:

索引滚动时新的索引会根据匹配到的索引模板自动设置,也支持自定义的settings、mappings和aliases设定。请求中的设定值将会覆盖索引模版中相同的设定,比如可以进行以下设定:

POST /test/_rollover
{
"conditions": {
"max_age": "1m",
"max_docs":"1000",
"max_size":"5gb "
},
"settings" :{"index.number_of_shards":2 }
}

新的索引的index.number_of_shards将会被设置为2。

Dry运行:

滚动索引支持dry_run模式,可以在不执行实际滚动的情况下检查请求条件:

POST /test/_rollover?dry_run
{
"conditions": {
"max_age": "1m",
"max_docs":"1000",
"max_size":"5gb "
},
"settings" :{"index.number_of_shards":2 }
}


相关文章

MySQL 使用开源审计插件

MySQL 使用开源审计插件

前言MySQL 只有企业版有审计插件,开源社区版没有审计插件。企业要通过等保需要开通审计,这里记录使用 MariaDB 开源审计插件,让 MySQL 社区版拥有审计功能。1. 审计插件下载审计插件是包...

Debezium部署以及同步之DB2数据到Kafka的同步

Debezium部署以及同步之DB2数据到Kafka的同步

因为Debezium依赖于kafka之上,所以我们先部署kafka和zookeeper(忽略)。1 环境介绍Debezium1.9版本 Db2 11.5版本  附官网:http...

使用clickhouse-backup迁移数据

使用clickhouse-backup迁移数据

说明上一篇文章中,我们介绍了clickhouse-backup工具。除了备份恢复,我们也可以使用该工具来迁移数据。这篇文章中,我们提供一个使用clickhouse-backup做集群迁移的方案。前置条...

Redis 热 key

1、hotkeys该方案只能针对于 key 的过期淘汰策略为 allkeys-lfu 或者 volatile-lfu 的实例。-----查看淘汰策略 config get maxmemory-pol...

Kafka监控

1.监控健康状态为了了解 Kafka 的运作状态和性能状况需要对 Kafka 进行监控和诊断,通过Kafka提供的监控工具和插件可以诊断出 Kafka 的异常、错误、瓶颈和故障等问题并及时采取对应的措...

win2016系统新增辅助网卡无法访问公网

win2016系统新增辅助网卡无法访问公网

问题现象:一台阿里云win2016系统服务器,在主网卡已绑定弹性公网ip之后,再新增了一块辅助网卡,无法访问公网。另外,使用NAT网关做了dnat到辅助网卡的映射。该台服务器网卡信息为:主网卡:172...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。