ES字段类型与内存管理

小丫2年前技术文章798

一、ES常见字段类型:

1、 概述

字段是数据存储的最小微粒,根据数据的性质不同将数据分成不同的字段类型,熟悉不同字段类型的特性,对索引的Mapping设计、查询调优都极其重要。

2、 关键参数

Index:定义字段的分析类型以及检索方式

no

将无法通过检索查询到该字段

not_analyzed

将整个字段存储为关键字,常用于汉字短语、邮箱等复杂的字符串

analyzed

将会通过默认的standard分析器进行分析

       store:定义了字段是否存储

false(默认)

将原始文本存储在_source(除非已关闭)里面

ture

将独立存储该字段,频繁使用的字段可以设置,可加快解析,但加大存储负担

       boost:用于设置字段的权重,设置后不重建索引,权重无法修改

       copy_to:用于配置自定义的_all字段,就是对各字段合并为一个超级字段。

       doc_values:是为了加快排序、聚合操作,在建立倒排索引的时候,额外增加一个列式存储映射,是一个空间换时间的做法。默认是开启的,对于确定不需要聚合或者排序的字段可以关闭。

       format:用于格式化日期

       fields:让同一文本有多种不同的索引方式,比如一个String类型的字段,可以使用text类型做全文检索,使用keyword类型做聚合和排序。

       properties:Object或者nested类型,可以通过properties参数指定

3、元数据

_index

文档所属的索引名

_type

文档所属的类型名

_id

文档唯一ID

_source

文档的原始json数据

_all

整合所有内容到该字段(字符串类型,以空格做分隔符)

_version

文档的版本信息

_score

相关性打分



image.png

4、字段类型

ES中的字段类型大致可以分为两类:确切值(exact value)及全文文本(full text

数据类型



Text

字符串类型

用于全文搜索,不拥有排序,很少用于聚合

Keyword

字符串类型

适合用于结构化字段的精确值搜索,可排序,聚合

Date

日期类型

"strict_date_optional_time||epoch_millis"

integer/long

整数类型

确切值

double/float/half_float

浮点类型

满足需求尽量选范围小的数据类型

IPv4 & IPv6

IP类型


object

对象类型

内部对象被处理成扁平键值对结构

nested

嵌套类型

内部文档被保留在两个文档中,查询时做join处理

token_count


用于统计词频

boolean

逻辑类型


array

数组类型

Es中无专用的数组类型,字段包含的多值需同类型

父子文档:

       ES 提供了类似关系型数据库中 Join 的实现。使用 Join 数据类型实现,可以通过 Parent / Child 的关系,从而分离两个对象

父文档和子文档是两个独立的文档

更新父文档无需重新索引整个子文档。子文档被新增,更改和删除也不会影响到父文档和其他子文档。

 

二、内存管理

1ES缓存主要分成三大类(占用堆内存空间):

A、 Node Query CacheFilter Context

  • 每个节点有一个Node Query缓存,由该节点所有的Shard共享,只缓存Filter Context相关内容

  • 需要在每个Data Node节点上配置(Node Level:indices.queries.cache.size:”10%”;Index Levelindex.queries.cache.enabled:true

  • 此类缓存保存的时Segment级缓存命中的结果。Segment被合并后,缓存失效

B、 Shard Query CacheCache Query的结果)

  • 缓存每个分片上的查询结果(只缓存设置size的查询对应的结果,不缓存hits。)

  • 配置在每个节点上(indice.requests.cache.size:”1%”

  • 分片Refresh时,Shard Request Cache会失效。如果Shard对应的数据频繁发生变化,该缓存的效率会很差。

C、 Fielddata Cache

  • Text类型,默认都采用doc_values,节约内存。

  • Text类型字段需要打开Fileddata才能对其进行聚合排序(Text分词后,排序和聚合效果一般,一般建议不使用)

  • 可通过Indices.fielddata.cache.size进行控制(默认无限制)

  • Segment被合并后会失效

2、内存管理最佳实践

       内存一半分给JVM(不超过32G),一半留给操作系统,缓存索引文件

查看各个节点内存状况常用命令:

       GET _cat/nodes?v

       GET _nodes/stats/indices?pretty

       GET _cat/nodes?v&h=name,queryCacheMemory,queryCacheEvictions.requestCacheEvictions,requestCacheMemory,requestCacheHitCount,request_cache.miss_count

GET _cat/nodes?h=name,port,segmetns.memory,segments.index_writer_memory,fielddata.memory_size,query_cache.memory_size,request_cache.memory_size&v

3、关于熔断器

断路器可以避免不合理操作引发的OOM,每个断路器可以指定内存使用的限制

Parent circuit breaker

设置索引的断路器可以使用的内存的总量

Fielddata circuit breaker

加载fielddata所需要的内存

Request circuit breaker

防止每个请求级数据结构超过一定的内存(例如聚合计算的内存)

In filght circuit breaker

Request中的断路器

Accounting request circuit breaker

请求结束后不能释放的对象所占用的内存

断路器查询命令:

GET /_nodes/stats/breaker?


相关文章

Elasticsearch8.5及Kibana8.5安装部署

Elasticsearch8.5及Kibana8.5安装部署

一、环境准备1、Centos7系统2、切换英文系统[root@master02 ~]# tail -n2 /etc/profile export LANG="en_US.UTF-8"3、下载、安...

MySQL 复制延迟是如何计算的?

MySQL 复制延迟是如何计算的?

前言日常运维中总会收到 MySQL 备库延迟告警,一般数据库监控只读实例延迟都是采集 Seconds_Behind_Master 值,我们都知道它在某些场景下不可靠,今天一起探索 MySQL 是如何计...

Java-API对HDFS的操作(IDEA版)

Java-API对HDFS的操作(IDEA版)

前期工作首先就是安装maven在win系统下不配置hadoop环境,直接运行代码会报错,显示缺少winutils.exe 和 hadoop.dll 两个文件首先添加pom.xml文件  <dep...

通过SDK上传oss文件报错“413 Request Entity Too Large”

通过SDK上传oss文件报错“413 Request Entity Too Large”

问题描述通过SDK上传oss文件返回错误如下,客户反馈上传的文件不大,只有200M。浏览器端访问返回504 timeout报错,同客户核实是每次到1min 30s时候上传大文件会报错com.aliyu...

达梦数据库初始化

达梦数据库初始化

1、dm数据库初始化认证dm数据库默认开启了ssl,在第一次登录时,使用SYSDBA用户登录,需要通过命令指定对应的ssl文件。不然会出现ssl 初始化失败的报错./disql SYSDBA/SYSD...

SparkStreaming对接kafka消费模式区别

SparkStreaming对接kafka消费模式区别

Sparkstreaming对接kafka使用的消费方式与常规的kafka消费方式完全不同,其中区别主要为消费者的管理方式不同。Ø  常规消费模式Kafka常规的消费模式以消费者组为消费单元...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。