ES内置分词器介绍
Standard Analyze 介绍
Simple Analyze
非字母切分,一些下划线什么的都会当做一个分割符,大写会改为小写处理,数字被删除了
Whitespace Analyze
Stop Analyze
Keyword Analyze
Pattern Analyze
默认使用\w+ 以非字母为分隔符,同时会将大写转小写
Language Analyze
用于适配多种语言,可以指定语言。
中文分词
中文分词难点:
- 一个中文句子要切割成一个个的“词”,而不是“字”;
- 中文中没有明显的分隔符(英文中有空格);
- 中文分词需要结合上下文分析
- 这个苹果,不大好吃/ 这个,苹果,不大,好吃
ICU Analyzer
icu Analyze 需要手动在es集群个节点分别安装,国内安装较慢,耐心等待
elasticsearch-plugin install analysis-icu
现在对中文分词,做的并不是特别好。此外还有一些开源的中文分词器:
- IK
- 支持自定义词库,支持热更新分词字典
- https://github.com/medcl/elasticsearch-analysis-ik
- THULAC
https://www.hugbg.com/archives/1923.html/2
2020-04-19 12:35 下午 1F
程序漏洞叫特性,设计漏洞叫特色 —沃·兹基·硕得