ES运维(八)添加IK分词器

二龙1年前技术文章387

一、概述

ES自带standard analyzer、simple analyzer、whitespace analyzer、stop analyzer、language analyzer、pattern analyzer等6种分词器。这里介绍ik分词器集成(es版本为7.12.1)

二、集成IK分词器

1、下载分词器包

下载地址:
https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.12.1/elasticsearch-analysis-ik-7.12.1.zip

001.png

2、分发插件

所有es节点均要上传:
/opt/cloudera/parcels/ELASTICSEARCH/lib/elasticsearch/plugins/
分发后重启es集群

002.png

003.png

三、使用ik分词器

1、创建索引并指导分词器

PUT hhz_index
{
    "settings": {
        "analysis": {
            "analyzer": {
                "ik": {
                    "tokenizer": "ik_max_word"
                }
            }
        }
    },
    "mappings": {
        "properties": {
            "title": {
                "type": "text"
            },
            "content": {
                "type": "text",
                "analyzer": "ik_max_word"
            }
        }
    }
}

004.png

2、使用ik分词器

POST _analyze
{
  "analyzer": "ik_smart",
  "text": ["我是河南人"]
}

005.png

3、将文本做细粒度拆分

POST _analyze
{
  "analyzer": "ik_max_word",
  "text": ["我是河南人"]
}

006.png


相关文章

MySQL性能优化(九)range和ref

MySQL性能优化(九)range和ref

有的时候,我们会遇到这样的情况:明明有索引,明明有更好的执行计划,但是优化器并没有选择这个最优的执行计划。优化器可能会选择并非最优的索引,可能选择并非最优的数据访问方式。下面是一个真实的例子:一个例子...

大数据之数据采集组件选型

大数据之数据采集组件选型

按数据的源头、实际上也是对应的数据采集方式,分别进行分析与技术推荐,数据从源头基本分为以下三大类1、Web页面/移动App/MES/IoT/系统生产: 这些数据是被动接收。建议可采用Apache Ni...

阿里云ES跨账号数据迁移(reindex)

阿里云ES跨账号数据迁移(reindex)

1、背景与前置条件总的来说,阿里云es集群间数据迁移,有三中方式,logstash、reindex、镜像备份恢复,分别使用不同的场景,本文档主要讨论reindex方式进行账号下,ES跨集群迁移时,使用...

MySQL 复制-无数据环境搭建异步复制

MySQL 复制-无数据环境搭建异步复制

全新初始化(新环境,无数据)搭建 MySQL 异步复制 & GTID 复制标准文档。一、前言环境说明:操作系统 CentOS 7  & 数据库版本 5.7.32参数要求:主库必须开启...

企业级大数据安全架构(十一)

企业级大数据安全架构(十一)

一、Kerberos接入dophinscheduler建议将dophinscheduler集成到Ambari安装部署,在Ambari上面开启kerberos1.安装准备编译从GitHub获取dolph...

Helm部署

Helm部署

1、helm介绍在没使用helm之前,向Kubernetes部署应用,需要依次部署deployment、svc等,步骤教繁琐,况且随着很多项目微服务化,复杂的应用在容器中部署以及管理显得较为复杂,he...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。