Elasticsearch数据生命周期如何规划

南墨2年前 (2023-07-19)技术文章1158

Elasticsearch中的open状态的索引都会占用堆内存来存储倒排索引，过多的索引会导致集群整体内存使用率多大，甚至引起内存溢出。所以需要根据自身业务管理历史数据的生命周期，如近3个月的数据open用于快速查询；过去3-6月的数据索引close以释放内存，需要时再开启；超过6个月的可以删除索引。

可以使用索引模板的方式按照一定时间创建新的索引，例如按天创建索引，索引的命名可能是index-yyyy-mm-dd，每天生成不同的索引，清除历史数据时可直接关闭或删除。

1.滚动索引

当一个索引过大或者过于陈旧时，滚动索引可以将索引的别名滚动到一个新的索引上，这个新的索引结构与旧索引结构相同。

滚动索引API需要指定一个索引别名和条件。发送请求时这个索引别名需要指向一个可以写入的索引，否则请求将无效。

索引别名：

指定的索引别名有以下两种情况：

（1）如果别名指向一个索引，is_write_index未配置，此时旧索引别名将滚动到新索引上，同时旧索引别名将被删除；

（2）如果索引别名指向一个或者多个索引，同时有一个或者多个索引的is_write_index设置为true，此时，这些可写入的索引将滚动别名同时将is_write_index设置为false，将别名滚动到新的索引同时将新索引的is_write_index设置为true。

滚动条件：

滚动索引的API支持三个条件，如下所示。

参数名称	参数说明
max_age	索引最大年龄，单位支持d（天）、h（时）、m（分钟）、s（秒）
max_docs	索引应该包含最大的文档数，不包含索引副本的文档数量
max_size	索引主分片的最大估算大小，单位支持pb（PB）、tb（TB）、gb（GB）、mb（MB）、kb（KB）

当发出滚动请求的时候指定索引满足设定条件中的任意一个或者多个索引将会被滚动，如果不满足则不会滚动，elasticsearch暂不提供监听功能，需要滚动时需要手动触发。

索引命名规则：

滚动索引的命名必须满足一定规则否则无法正常滚动索引或者需要手动指定新的索引名称。

1. 以-和数字结尾：如果现有索引名称以-和数字结尾例如log-1，新的索引名称将会根据现有数字大小加1，无论就得索引名称如何，新的索引的编号数字都会填充为6位，log-1索引滚动后新的索引名称为log-000002。

2. 使用日期计算：新索引的命名也支持用滚动日期来命名，要求索引名称同样以-加数字结尾，比如log-2019.08.28-1，如果当天滚动索引的话新的索引名称为log-2019.08.28-000002，如果一天后滚动新的索引名称为log-2019.08.29-000002。

也可以用日期计算进行创建索引并设定别名，如以下操作将会创建logs-2019.08.28-1索引，别名为logs_write：

# PUT /<logs-{now/d}-1> with URI encoding:
PUT /%3Clogs-%7Bnow%2Fd%7D-1%3E
{
"aliases": {
"logs_write": {}
}
}

3. 日期计算：

日期计算的格式为：

<static_name{date_math_expr{date_format|time_zone}}>

参数说明为:

参数名称	说明
static_name	是名称的 static text（静态文本）部分
date_math_expr	是动态计算日期的动态 date math 表达式
date_format	是计算日期应呈现的可选格式。默认是 YYYY.MM.dd
time_zone	是可选的时区。默认为 utc 。

日期计算表达式只支持公历。

必须将 date math 索引名称表达式包含在尖括号中，并且所有的特殊字符都应进行 URI 编码。例如 :

GET /％3Clogstash - ％7Bnow ％2Fd ％7D ％3E / _search
{
"query": {
"match": {
"test": "data"
}
}
}

用于日期计算的特殊字符必须按照如下 URI 编码 :

<	%3C
>	%3E
/	%2F
{	%7B
}	%7D
\|	%7C
+	%2B
:	%3A
,	%2C

以下示例显示了不同形式索引表达式和它们解析的最终索引名称，给定的当前时间是 2024 年 3 月 22 日 utc。

表达	结果
<logstash-{now/d}>	logstash-2024.03.22
<logstash-{now/M}>	logstash-2024.03.01
<logstash-{now/M{YYYY.MM}}>	logstash-2024.03
<logstash-{now/M-1M{YYYY.MM}}>	logstash-2024.02
<logstash-{now/d{YYYY.MM.dd\|+12:00}}>	logstash-2024.03.23