逸兴

57
文章

25
评论

2020-04-1520:35:382 2228字阅读7分25秒

在旧版的ElasticSearch 中创建索引默认设置5个主分片，7.0 开始默认只有一个主分片。

单个分片的优点在于，查询算分聚合不准确的问题都可以避免，而其影响在于单个索引，单个分片，无法实现集群的水平扩展，即使增加新的节点，也无法实现水平扩展。

集群增加节点后，ElasticSearch 会自动进行分片的移动，也叫Shard Rebalancing

当分片数 > 节点数时
- 一旦集群中有新的数据节点加入，分片就可以自动进行分配
- 分片在重新分配时，系统不会有 downtime
多分片的优势：
- 查询可以并行执行
- 数据可以分散到多个机器
分片过多引起的问题
- 每个分片是一个Lucene 的索引，会占用机器资源
- 分片过多会增加性能开销
- 每次搜索的请求，需要从每个分片上获取数据
- 分片的mata 信息有Master节点维护，过多的分片，会增加管理的负担，控制在10W以内

从数据量角度
- 日志类应用，单个分片不要大于 50GB
- 搜索类应用，单个分片不要大于 20GB
单个分片存储大小的影响
- 提高Update性能
- Merge时，减少所需的资源
- 丢失节点后，具备更快的恢复速度 / 便于分片在集群内Rebalancing

副本分片是主分片的拷贝
- 可以提高系统可用性，提高查询速度，防止数据丢失
- 需要占用和主分片一样的资源
对性能的影响
- 副本会降低数据的索引速度，有几份副本就会有几倍的CPU资源消耗在索引上
- 会减缓对主分片的查询压力，但是会消耗同样的内存资源
  - 如果硬件资源充足，提高副本数，可以提高整体的查询QPS

调整分片总数，避免分配不均衡

ElasticSearch的分片策略会尽量保证节点上的分片数大致相同

扩容的新节点没有数据，导致新索引集中在新的节点

热点数据过于集中，可能会产生新的性能问题

这个参数用来控制是否对分片进行平衡，以及对哪些类型的分片进行平衡。

参数值：

控制单个索引在一个节点上的最大分片数，默认不限制。

创建索引时，这个值可以设置的小一些，以便索引的分片更平均的分布到集群的所有节点上。

控制全局范围内，分配给单个节点的最大分片数。

集群容量规划

一个集群共需要多少个节点，一个索引要设置几个分片？在规划上需要保存一定的余量，当负载出现波动，节点出现丢失时，还能正常运行。

做容量规划时，一些需要考虑的因素

评估业务的性能需求

常见的模式

硬件配置：

比如商品信息库

如果业务上有大量的查询是基于一个字段进行Filter，该字段又是一个数量有限的枚举值
- 例如订单所在的地区
如果在单个索引有大量的数据，可以考虑将索引拆分成多个索引
- 查询性能可以得到提高
- 如果要对多个索引进行查询可，还是可以在查询中指定多个索引得以实现
如果业务上有大量的查询是基于一个字段进行Filter ，该字段值并不固定
- 可以启用routing功能，按照Filter字段的值分布到集群中不同的shard，降低查询时相关的shard，提高CPU使用率

https://www.hugbg.com/archives/2280.html