如何深入理解ES的聚合

Elasticsearch | 作者 Charele | 发布于2022年05月19日 | 阅读数：1998

前些天发过一个贴子，
https://elasticsearch.cn/question/12608
那只是为了说明深度优先和广度优先的区别，
那个里面也谈了一些基础概念（比如聚合本质上，是一个Lucene的收集器），那个概念是理解聚合的前提。

聚合分许多类型，我只说keyword类型的termAgg（就是桶聚合）
为了简化，不涉及子聚合 (也就没有深度还是广度那个东西了)

也不会深入的说search的执行过程，这是另外一个主题。
先初步认识一下它长啥样：

12 个回复

Charele - Cisco4321

1 先来说说聚合的分类，

可以把ES的聚合大致分成两类，Bcukets和Metrics，
其中max这种聚合就属于Metrics，相对来说简单一些。
另外，Buckets里边有一个类别，叫可延迟桶聚合（绿处），
这种，就是那种支持深度 / 广度选择的聚合类型，
如果不是这种的子类，估计参数加进去报错。

另外，不讨论pipleline，放一起说的话，过于复杂

pipeline可以和普通聚合联用，
但从代码上来说，你可以看到，它并没有父类，
它并不属于普通聚合这个范围，

Charele - Cisco4321

2
想了一下，Terms聚合还是太复杂了。
如果你看网上文章和视频，会觉得好像桶聚合并不复杂，就是按要查的key创建n个桶，然后把数据放到相应的桶里去，几句话就说完了。
但ES代码远远没有这么简单！

比如如何形成/取得ordinal，正式桶如何update成临时桶，临时桶又update成正式桶，
比如这里就是取得Top N里的桶号，如何形成这个，就得说半天。

太复杂了，有点只可意会，难以言述的感觉。

这个主题只专注于聚合的流程，而不是在于聚合的内部实现。
还是说简单的，max聚合。
那个里面说道，聚合一般是这个样子形成的：
XXXAggregationBuilder -> XXXAggregatorFactory -> XXXAggregator
不是所有聚合都严格这样，但max聚合就是这样子的，

形成过程其实很重要，有时候它关系到参数（或相关数据是从哪来的），不过先不管。
我们直面这个：

Charele - Cisco4321

3
查询大致可分成3类，
普通的，dfs的，还有那个preFilter的（当然还有其他特殊的：PIT的，异步的等等）
只说普通的：分为N个阶段，只关注前两个

阶段1: 查询 ---> 阶段2:取数据 ---> 3, 4,,,
（另外，针对一个分片的查询，ES作了优化。个人感觉没啥意义，实际中谁会只用一个分片？）

请求发到分片节点时，形成一个SearchContext（简称sc），对请求作解析（同时也会解析聚合），
后面的执行可以看成全是这个sc来完成的，

注意：这个includeAggregations，不是查询里面有没有聚合，
而是要不要解析聚合相关的东西。

阶段1是要解析的，阶段2就不解析了。
当然，如果你指定了size=0，跟本就不会执行阶段2的了（只走形式）

Charele - Cisco4321

4 接上楼，
这里的解析做了什么呢，很简单，
XXXAggregationBuilder -> XXXAggregatorFactory -> XXXAggregator，
它生成了聚合工厂（中间这个）
然后存到sc里面。

1> 数组是因为一个查询里面会包含多个顶层聚合
2> 这里的工厂都是顶层聚合的工厂，并没有子聚合

Charele - Cisco4321

5
下面就是聚合真正执行的地方了，3个地方,
其中红色的也是查询执行的地方
传进去的参数就是上面说的那个sc

这里分绿，红，紫，下面会分别说：

Charele - Cisco4321

6
我拿这个最简单的max聚合做例子，找出最大的年纪

先说上面的绿框处，聚合的预处理 preProcess

1> 看名字，是创建顶层聚合器
其实这里它也同时创建了里面的子聚合器（如果有）
2> 用“多重收集器”来包装一下
上面提到，ES聚合器，就是一个Lucene收集器。
这里用一个“多重收集器”对像来包装一下，
执行这个“多重收集器”，就等于执行里面每个收集器
（本例中，只有一个聚合，也会包装）
3> 预收集
这个本例中无用，不说了。
4> 下面还有一些，
比如你查询里有 "profile":"true" 参数，这个profile其实也是一个额外的收集器。这里略过。

结果保存在sc里面，sc是贯穿整个查询的

Charele - Cisco4321

7
下面说说5楼的那个红框框里的，执行查询的地方。

下面说下聚合的大概意思。
比如一个普通查询（没有聚合），它也是一个Lucene收集器，作用是啥呢？
遇到一个文档，看看它符不符合你的查询条件，如果是，就把doc号收集保存起来。
然后传回到协调节点，在第2阶段，用doc号跟来取数据

聚合也是一个收集器，它的作用（拿我们这里的max来说）
先设一个maxAge，
遇到一个文档，看看里面的年令age，是不是大于这个maxAge，如果大，就把maxAge = age
最后，把这个maxAge传回协调节点。（最后多个分片的结果会合并，找出最大的）