03 | 倒排索引 & 分词

逸兴
逸兴
逸兴
57
文章
25
评论
2020-03-3119:56:561 2121字阅读1分48秒
摘要

Elasticsearch 为什么搜索块,Elasticsearch 使用一种称为 倒排索引 的结构,它适用于快速的全文搜索。
本文简单介绍“倒排索引” 和 es内置分词器,以及中文分词

ES内置分词器介绍

Standard Analyze 介绍

03 | 倒排索引 & 分词

Simple Analyze

03 | 倒排索引 & 分词

非字母切分,一些下划线什么的都会当做一个分割符,大写会改为小写处理,数字被删除了

03 | 倒排索引 & 分词

Whitespace Analyze

03 | 倒排索引 & 分词

Stop Analyze

03 | 倒排索引 & 分词

Keyword Analyze

03 | 倒排索引 & 分词

Pattern Analyze

默认使用\w+ 以非字母为分隔符,同时会将大写转小写

03 | 倒排索引 & 分词

Language Analyze

用于适配多种语言,可以指定语言。

中文分词

中文分词难点:

  • 一个中文句子要切割成一个个的“词”,而不是“字”;
  • 中文中没有明显的分隔符(英文中有空格);
  • 中文分词需要结合上下文分析
    • 这个苹果,不大好吃/ 这个,苹果,不大,好吃

ICU Analyzer

icu Analyze 需要手动在es集群个节点分别安装,国内安装较慢,耐心等待

elasticsearch-plugin install analysis-icu
03 | 倒排索引 & 分词
03 | 倒排索引 & 分词

现在对中文分词,做的并不是特别好。此外还有一些开源的中文分词器:




https://www.hugbg.com/archives/1923.html/2
逸兴
  • 本文由 发表于 2020-03-3119:56:56
  • 除非特殊声明,本站文章均为原创,转载请务必保留本文链接
自动更新SSL证书 默认分类

自动更新SSL证书

现在免费的SSL证书只有三个月有效期,有一个博客和图床都用的ssl证书到期需要重新签发,挺麻烦的。原本想着写个脚本通过阿里云的 OpenAPI 进行证书的签发和部署,但是偶然发现了 ACME 这个项目...
推导式、生成式与生成器 基础语法

推导式、生成式与生成器

推导式 概述 Python中的推导式是一种快速、简洁的数据结构创建方式,不需要手动创建数据结构中的每一个元素,类似于给出一个规律,python会根据这个规律自动填充数据结构。支持有列表推导式、字典推导...
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

评论:1   其中:访客  1   博主  0
    • 老司机 老司机 1

      程序漏洞叫特性,设计漏洞叫特色 —沃·兹基·硕得