03 | 倒排索引 & 分词

逸兴

57
文章

25
评论

2020-03-3119:56:561 2121字阅读1分48秒

摘要

Elasticsearch 为什么搜索块，Elasticsearch 使用一种称为倒排索引的结构，它适用于快速的全文搜索。
本文简单介绍“倒排索引” 和 es内置分词器，以及中文分词

ES内置分词器介绍

非字母切分，一些下划线什么的都会当做一个分割符，大写会改为小写处理，数字被删除了

默认使用\w+ 以非字母为分隔符，同时会将大写转小写

用于适配多种语言，可以指定语言。

中文分词难点：

icu Analyze 需要手动在es集群个节点分别安装，国内安装较慢，耐心等待

elasticsearch-plugin install analysis-icu

现在对中文分词，做的并不是特别好。此外还有一些开源的中文分词器：

https://www.hugbg.com/archives/1923.html/2

评论：1 其中：访客 1 博主 0