社区日报 第154期 (2018-01-10)
http://t.cn/RQhaa0f
http://t.cn/RQhau76
http://t.cn/RQhaDyv
2. 手把手教你写 Logstash 插件
http://t.cn/RGE6QlQ
3. ElasticSearch in action(YouTuBe)
http://t.cn/RQhSBV8
编辑:江水
归档:https://elasticsearch.cn/article/448
订阅:https://tinyletter.com/elastic-daily
http://t.cn/RQhaa0f
http://t.cn/RQhau76
http://t.cn/RQhaDyv
2. 手把手教你写 Logstash 插件
http://t.cn/RGE6QlQ
3. ElasticSearch in action(YouTuBe)
http://t.cn/RQhSBV8
编辑:江水
归档:https://elasticsearch.cn/article/448
订阅:https://tinyletter.com/elastic-daily
收起阅读 »
社区日报 第153期 (2018-01-09)
http://t.cn/RHDkDuq
2.使用ELK分析RunKeeper日志。
http://t.cn/RHDk1Xa
3.Spark与Elasticsearch整合案例详解。
http://t.cn/RHDs2zw
编辑:叮咚光军
归档:https://elasticsearch.cn/article/447
订阅:https://tinyletter.com/elastic-daily
http://t.cn/RHDkDuq
2.使用ELK分析RunKeeper日志。
http://t.cn/RHDk1Xa
3.Spark与Elasticsearch整合案例详解。
http://t.cn/RHDs2zw
编辑:叮咚光军
归档:https://elasticsearch.cn/article/447
订阅:https://tinyletter.com/elastic-daily
收起阅读 »
number?keyword?傻傻分不清楚
【携程旅行网 吴晓刚】
上周,在某多多搬砖的一位朋友在微信上找我咨询,说他们公司一个ES集群从2.4升级到5.5以后,一个很简单的Query查询耗时突然从几十毫秒,变成800-1000毫秒,几十倍的性能下降!原始问题链接:# Why my search slow?
这个查询非常简单,就是3个过滤条件求交集而已:
{
"from": 0,
"size": 10,
"query": {
"bool": {
"filter": [
{
"terms": {
"goods_id": [
"262628158"
],
"boost": 1.0
}
},
{
"terms": {
"status": [
"2",
"4"
],
"boost": 1.0
}
},
{
"range": {
"create_time": {
"from": "1514027649",
"to": "1514632449",
"include_lower": true,
"include_upper": true,
"boost": 1.0
}
}
}
],
"disable_coord": false,
"adjust_pure_negative": true,
"boost": 1.0
}
},
"sort": [
{
"create_time": {
"order": "desc"
}
}
]
}
通过profile查看,发现耗时主要在status字段的build_scorer
这个阶段。
对方同时提到,只要去掉"status":["2", "4"]
这个查询条件,速度就会恢复正常。进一步询问后得知,查询的索引文档总量相当巨大,达到16亿条,而status字段只有几个不同的数字,在mapping里被定义为数值型short
。
我的第一反应,status只有几个值,意味着该字段的filter得到的结果集是海量的。可能是处理这个大结果集的代价很高造成的缓慢,但是具体什么原因我一时也说不上来。
脑子里开始翻查ES 2.x -> 5.x升级对于数值类型和Term Query有何重大变化?想起来两点:
- Lucene6.0引入了重新设计的数值类型的索引结构,不再采用倒排索,而是使用了更适合范围查找的Block K-d Tree。 ES从5.0开始引入这种新结构。(参考: searching-numb3rs-in-5.0)
- Term Query由于通常非常快,从5.1.1开始不再被缓存到Query Cache
显然这个status字段不用于范围查找,字段类型设置上keyword比number更合理。 但我也没想明白为何number在这场景下查询会慢这么多,所以我也稍稍有些怀疑2.x缓存了Term Query是造成性能差异的原因。 当时让朋友做了个测试,将TermQuery换成RangeQuery,被告知速度飞快,只要几十个毫秒,并且多执行几次后更是快到只有几个毫秒了。(因为RangeQuery反复执行会被Cache起来)。
隔天,朋友根据建议将status先改为keyword,重新索引数据后,查询性能奇迹般的恢复到正常,所以基本可以确定和缓存无关了。
恰巧社区也有人在经历同样的问题: Elastic对类似枚举数据的搜索性能优化 ,看起来是个普遍现象,值得研究找出问题根源。
花了几天的时间参阅技术文档,也粗略读了一下ES/Lucene相关代码后,总算搞清楚了问题的来龙去脉。 本文将对相关技术细节做分析,然后回答下面3个问题:
- 为什么ES5.x里对数值型字段做TermQuery可能会很慢?
- 为何Profile里显示的耗时几乎全部在
build_scorer
?- 为什么对同样的数值型字段做RangeQuery却又很快了?
为更好的理解这个问题,先谈一下几点预备知识:
- ES2.x和5.x的数值类型分别是如何索引的
- Block k-d tree的基本概念和Lucene实现
- Queries/filters执行的先后顺序及结果合并是怎样做的
ES2.x和5.x的数值类型分别是如何索引的
ES5.x之前用到的Lucene版本,实际上只能够索引文本类型的数据,表面上被定义为数值类型的字段,在暗地里都被转换成了字符串,编排成了倒排索引。例如:
Term | Postings List |
---|---|
2 | [doc3, doc5, doc10 ...] |
5 | [doc1, doc3, doc9 ... ] |
... | ... |
90 | [doc2, doc3, doc8 ...] |
99 | [doc3, doc5, doc20 ...] |
... | ... |
这种结构对于精确的数值查询速度还是比较快的,直接从倒排索引根据查找的term拿到postings list就好了。 但类似range: [50, 100]
这样的范围查找就比较麻烦了,Lucene在找到对应的term后,只能将其转换成类似50 OR 51 OR 52 ... OR 100
这样的Bool查询。可想而知,这个多条件OR查询开销很高,执行很慢。所以Lucene在创建索引的时候,会自动产生一些类似50x75
这样的特殊Term,指向包含在该范围的文档列表,从而可以将查询优化成类似50x75 OR 76x99 OR 100
这种形式。但是这种优化在字段的不同值很多,查询范围很大的时候,依然很无力。 因此早期版本的Lucene和ES的范围查询性能一直被诟病。
Lucene从6.0开始引入了Block k-d tree来重新设计数值类型的索引结构,其目标是让数值型数据索引的结构更紧凑,搜索速度更快。这种数据结构是为多维数值字段设计的,可以高效的用于诸如地理位置这类数据的快速过滤,但同样适用于单维度的数值型。
Block k-d tree的基本概念和Lucene实现
基本思想就是将一个N维的数值空间,不断选定包含值最多的维度做2分切割,反复迭代,直到切分出来的空间单元(cell
)包含的值数量小于某个数值。 对于单维度的数据,实际上就是简单的对所有值做一个排序,然后反复从中间做切分,生成一个类似于B-tree这样的结构。和传统的B-tree不同的是,他的叶子结点存储的不是单值,而是一组值的集合,也就是是所谓的一个Block。每个Block内部包含的值数量控制在512- 1024个,保证值的数量在block之间尽量均匀分布。 其数据结构大致看起来是这样的:
Lucene将这颗B-tree的非叶子结点部分放在内存里,而叶子结点紧紧相邻存放在磁盘上。当作range查询的时候,内存里的B-tree可以帮助快速定位到满足查询条件的叶子结点块在磁盘上的位置,之后对叶子结点块的读取几乎都是顺序的。
要注意一点,不是简单的将拿到的所有块合并就可以得到想要的docID结果集,因为查询的上下边界不一定刚好落在两端block的上下边界上。 所以如果需要拿到range filter的结果集,就要对于两端的block内的docid做扫描,将他们的值和range的上下边界做比较,挑选出match的docid集合。
Queries/filters执行的先后顺序及结果合并是怎样做的
ES的Queries/filters执行顺序比较复杂,并非按照Query里条件的排列顺序来挨个执行;也不是某些人想象的那样,每个filter/Query都独立执行,拿到各自的结果集以后,再做结果集的合并。 在elasticsearch-query-execution-order 这篇博客里对这个主题做了比较详细的介绍。
简单来说,ES会先通过调用每个查询的cost()
函数估算一下该查询的代价,然后选择代价最小的查询作为起点,在其圈定的docid集合上生成一个迭代器。然后反复迭代,根据和其他条件之间是AND还是OR的关系,再去决定结果集合并的方式。
这个结果集的迭代,以及合并,就是上面链接里提到的
nextdoc()
和advance()
等操作。 比较复杂的地方是这些操作根据数据类型的不同和查询类型的不同,ES都有针对性的进行操作优化,同样的操作有些可能是在内存中进行,有些则可能直接在磁盘上进行。
以最常见的keyword字段做TermQuery为例,其cost就是Term Frequency,这个值可以直接从倒排索引读取。 Frequency越高的Term,其postings list就越长,迭代起来的代价就越高。 所以如果对多个TermQuery做AND合并,就会选择Frequency最低的Term,以其postings list为起点做迭代(nextdoc
)。 Postings list是按照docid顺序存放的,并且在数据结构上还增加了跳表来加快advance()
操作。因此多个postings list的合并可以直接操作磁盘上的数据而不会引起过多的随机IO,加上ES5.0以后对于索引数据采取了mmap file的方式访问,热数据读取引发的磁盘IO愈发的少。 这也是为什么5.1.1之后取消了TermQuery的cache,因为在跳表和OS page cache的加持下,直接合并磁盘上的postings list已经非常快了。 取消对其cache后,可以减少构造cache的开销,并且将宝贵的cache空间留给代价更高的filter,一定程度上可以提升ES整体性能。
有了这些预备知识,再来解答文首抛出的3个问题。
1. 为什么ES5.x里对数值型字段做TermQuery可能会很慢?
首先,用户范例查询里还有其他更加结果集更小的TermQuery,cost更低,因此迭代器从选择从这个低代价的Query作为起点开始执行; 其次,因为数值型字段在5.x里没有采用倒排表索引, 而是以value为序,将docid切分到不同的block里面。对应的,数值型字段的TermQuery被转换为了PointRangeQuery。这个Query利用Block k-d tree进行范围查找速度非常快,但是满足查询条件的docid集合在磁盘上并非向Postlings list那样按照docid顺序存放,也就无法实现postings list上借助跳表做蛙跳的操作。 要实现对docid集合的快速advance操作,只能将docid集合拿出来,做一些再处理。 这个处理过程在org.apache.lucene.search.PointRangeQuery#createWeight
这个方法里可以读取到。 这里就不贴冗长的代码了,主要逻辑就是在创建scorer对象的时候,顺带先将满足查询条件的docid都选出来,然后构造成一个代表docid集合的bitset,这个过程和构造Query cache的过程非常类似。 之后advance操作,就是在这个bitset上完成的。
2. 为何Profile里显示的耗时几乎全部在build_scorer
?
回答第一个问题的时候提到了,如果查看PointRangeQuery的源码,构造scorer对象的构造过程包含了bitset的生成过程,所以耗时的实际上是构造一个巨大的bitset并在上面生成一个迭代器。
3. 为什么对同样的数值型字段做RangeQuery却又很快了?
从上面数值型字段的Block k-d tree的特性可以看出,rangeQuery的结果集比较小的时候,其构造bitset的代价很低,不管是从他开始迭代做nextdoc()
,或者从其他结果集开始迭代,对其做advance
,都会比较快。 但是如果rangeQuery的结果集非常巨大,则构造bitset的过程会大大延缓scorer对象的构造过程,造成结果合并过程缓慢。
这个问题官方其实早已经意识到了,所以从ES5.4开始,引入了indexOrDocValuesQuery
作为对RangeQuery的优化。(参考: better-query-planning-for-range-queries-in-elasticsearch)。 这个Query包装了上面的PointRangeQuery
和SortedSetDocValuesRangeQuery
,并且会根据Rang查询的数据集大小,以及要做的合并操作类型,决定用哪种Query。 如果Range的代价小,可以用来引领合并过程,就走PointRangeQuery
,直接构造bitset来进行迭代。 而如果range的代价高,构造bitset太慢,就使用SortedSetDocValuesRangeQuery
。 这个Query利用了DocValues这种全局docID序,并包含每个docid对应value的数据结构来做文档的匹配。 当给定一个docid的时候,一次随机磁盘访问就可以定位到该id对应的value,从而可以判断该doc是否match。 因此它非常适合从其他查询条件得到的一个小结果集作为迭代起点,对于每个docid依次调用其内部的matches()
函数判断匹配与否。也就是说, 5.4新增的indexOrDocValuesQuery
将Range查询过程中的顺序访问任务扔给Block k-d Tree索引,将随机访任务交给doc values。
值得注意的是目前这个优化只针对RangeQuery!对于TermQuery,因为实际的复杂性,还未做类似的优化,也就导致对于数值型字段,Term和Range Query的性能差异极大。
小结:
- 在ES5.x里,一定要注意数值类型是否需要做范围查询,看似数值,但其实只用于Term或者Terms这类精确匹配的,应该定义为keyword类型。典型的例子就是索引web日志时常见的HTTP Status code。
- 如果RangeQuery的结果集很大,并且还需要和其他结果集更小的查询条件做AND的,应该升级到ES5.4+,该版本在底层引入的
indexOrDocValuesQuery
,可以极大提升该场景下RangeQuery的查询速度。
【携程旅行网 吴晓刚】
上周,在某多多搬砖的一位朋友在微信上找我咨询,说他们公司一个ES集群从2.4升级到5.5以后,一个很简单的Query查询耗时突然从几十毫秒,变成800-1000毫秒,几十倍的性能下降!原始问题链接:# Why my search slow?
这个查询非常简单,就是3个过滤条件求交集而已:
{
"from": 0,
"size": 10,
"query": {
"bool": {
"filter": [
{
"terms": {
"goods_id": [
"262628158"
],
"boost": 1.0
}
},
{
"terms": {
"status": [
"2",
"4"
],
"boost": 1.0
}
},
{
"range": {
"create_time": {
"from": "1514027649",
"to": "1514632449",
"include_lower": true,
"include_upper": true,
"boost": 1.0
}
}
}
],
"disable_coord": false,
"adjust_pure_negative": true,
"boost": 1.0
}
},
"sort": [
{
"create_time": {
"order": "desc"
}
}
]
}
通过profile查看,发现耗时主要在status字段的build_scorer
这个阶段。
对方同时提到,只要去掉"status":["2", "4"]
这个查询条件,速度就会恢复正常。进一步询问后得知,查询的索引文档总量相当巨大,达到16亿条,而status字段只有几个不同的数字,在mapping里被定义为数值型short
。
我的第一反应,status只有几个值,意味着该字段的filter得到的结果集是海量的。可能是处理这个大结果集的代价很高造成的缓慢,但是具体什么原因我一时也说不上来。
脑子里开始翻查ES 2.x -> 5.x升级对于数值类型和Term Query有何重大变化?想起来两点:
- Lucene6.0引入了重新设计的数值类型的索引结构,不再采用倒排索,而是使用了更适合范围查找的Block K-d Tree。 ES从5.0开始引入这种新结构。(参考: searching-numb3rs-in-5.0)
- Term Query由于通常非常快,从5.1.1开始不再被缓存到Query Cache
显然这个status字段不用于范围查找,字段类型设置上keyword比number更合理。 但我也没想明白为何number在这场景下查询会慢这么多,所以我也稍稍有些怀疑2.x缓存了Term Query是造成性能差异的原因。 当时让朋友做了个测试,将TermQuery换成RangeQuery,被告知速度飞快,只要几十个毫秒,并且多执行几次后更是快到只有几个毫秒了。(因为RangeQuery反复执行会被Cache起来)。
隔天,朋友根据建议将status先改为keyword,重新索引数据后,查询性能奇迹般的恢复到正常,所以基本可以确定和缓存无关了。
恰巧社区也有人在经历同样的问题: Elastic对类似枚举数据的搜索性能优化 ,看起来是个普遍现象,值得研究找出问题根源。
花了几天的时间参阅技术文档,也粗略读了一下ES/Lucene相关代码后,总算搞清楚了问题的来龙去脉。 本文将对相关技术细节做分析,然后回答下面3个问题:
- 为什么ES5.x里对数值型字段做TermQuery可能会很慢?
- 为何Profile里显示的耗时几乎全部在
build_scorer
?- 为什么对同样的数值型字段做RangeQuery却又很快了?
为更好的理解这个问题,先谈一下几点预备知识:
- ES2.x和5.x的数值类型分别是如何索引的
- Block k-d tree的基本概念和Lucene实现
- Queries/filters执行的先后顺序及结果合并是怎样做的
ES2.x和5.x的数值类型分别是如何索引的
ES5.x之前用到的Lucene版本,实际上只能够索引文本类型的数据,表面上被定义为数值类型的字段,在暗地里都被转换成了字符串,编排成了倒排索引。例如:
Term | Postings List |
---|---|
2 | [doc3, doc5, doc10 ...] |
5 | [doc1, doc3, doc9 ... ] |
... | ... |
90 | [doc2, doc3, doc8 ...] |
99 | [doc3, doc5, doc20 ...] |
... | ... |
这种结构对于精确的数值查询速度还是比较快的,直接从倒排索引根据查找的term拿到postings list就好了。 但类似range: [50, 100]
这样的范围查找就比较麻烦了,Lucene在找到对应的term后,只能将其转换成类似50 OR 51 OR 52 ... OR 100
这样的Bool查询。可想而知,这个多条件OR查询开销很高,执行很慢。所以Lucene在创建索引的时候,会自动产生一些类似50x75
这样的特殊Term,指向包含在该范围的文档列表,从而可以将查询优化成类似50x75 OR 76x99 OR 100
这种形式。但是这种优化在字段的不同值很多,查询范围很大的时候,依然很无力。 因此早期版本的Lucene和ES的范围查询性能一直被诟病。
Lucene从6.0开始引入了Block k-d tree来重新设计数值类型的索引结构,其目标是让数值型数据索引的结构更紧凑,搜索速度更快。这种数据结构是为多维数值字段设计的,可以高效的用于诸如地理位置这类数据的快速过滤,但同样适用于单维度的数值型。
Block k-d tree的基本概念和Lucene实现
基本思想就是将一个N维的数值空间,不断选定包含值最多的维度做2分切割,反复迭代,直到切分出来的空间单元(cell
)包含的值数量小于某个数值。 对于单维度的数据,实际上就是简单的对所有值做一个排序,然后反复从中间做切分,生成一个类似于B-tree这样的结构。和传统的B-tree不同的是,他的叶子结点存储的不是单值,而是一组值的集合,也就是是所谓的一个Block。每个Block内部包含的值数量控制在512- 1024个,保证值的数量在block之间尽量均匀分布。 其数据结构大致看起来是这样的:
Lucene将这颗B-tree的非叶子结点部分放在内存里,而叶子结点紧紧相邻存放在磁盘上。当作range查询的时候,内存里的B-tree可以帮助快速定位到满足查询条件的叶子结点块在磁盘上的位置,之后对叶子结点块的读取几乎都是顺序的。
要注意一点,不是简单的将拿到的所有块合并就可以得到想要的docID结果集,因为查询的上下边界不一定刚好落在两端block的上下边界上。 所以如果需要拿到range filter的结果集,就要对于两端的block内的docid做扫描,将他们的值和range的上下边界做比较,挑选出match的docid集合。
Queries/filters执行的先后顺序及结果合并是怎样做的
ES的Queries/filters执行顺序比较复杂,并非按照Query里条件的排列顺序来挨个执行;也不是某些人想象的那样,每个filter/Query都独立执行,拿到各自的结果集以后,再做结果集的合并。 在elasticsearch-query-execution-order 这篇博客里对这个主题做了比较详细的介绍。
简单来说,ES会先通过调用每个查询的cost()
函数估算一下该查询的代价,然后选择代价最小的查询作为起点,在其圈定的docid集合上生成一个迭代器。然后反复迭代,根据和其他条件之间是AND还是OR的关系,再去决定结果集合并的方式。
这个结果集的迭代,以及合并,就是上面链接里提到的
nextdoc()
和advance()
等操作。 比较复杂的地方是这些操作根据数据类型的不同和查询类型的不同,ES都有针对性的进行操作优化,同样的操作有些可能是在内存中进行,有些则可能直接在磁盘上进行。
以最常见的keyword字段做TermQuery为例,其cost就是Term Frequency,这个值可以直接从倒排索引读取。 Frequency越高的Term,其postings list就越长,迭代起来的代价就越高。 所以如果对多个TermQuery做AND合并,就会选择Frequency最低的Term,以其postings list为起点做迭代(nextdoc
)。 Postings list是按照docid顺序存放的,并且在数据结构上还增加了跳表来加快advance()
操作。因此多个postings list的合并可以直接操作磁盘上的数据而不会引起过多的随机IO,加上ES5.0以后对于索引数据采取了mmap file的方式访问,热数据读取引发的磁盘IO愈发的少。 这也是为什么5.1.1之后取消了TermQuery的cache,因为在跳表和OS page cache的加持下,直接合并磁盘上的postings list已经非常快了。 取消对其cache后,可以减少构造cache的开销,并且将宝贵的cache空间留给代价更高的filter,一定程度上可以提升ES整体性能。
有了这些预备知识,再来解答文首抛出的3个问题。
1. 为什么ES5.x里对数值型字段做TermQuery可能会很慢?
首先,用户范例查询里还有其他更加结果集更小的TermQuery,cost更低,因此迭代器从选择从这个低代价的Query作为起点开始执行; 其次,因为数值型字段在5.x里没有采用倒排表索引, 而是以value为序,将docid切分到不同的block里面。对应的,数值型字段的TermQuery被转换为了PointRangeQuery。这个Query利用Block k-d tree进行范围查找速度非常快,但是满足查询条件的docid集合在磁盘上并非向Postlings list那样按照docid顺序存放,也就无法实现postings list上借助跳表做蛙跳的操作。 要实现对docid集合的快速advance操作,只能将docid集合拿出来,做一些再处理。 这个处理过程在org.apache.lucene.search.PointRangeQuery#createWeight
这个方法里可以读取到。 这里就不贴冗长的代码了,主要逻辑就是在创建scorer对象的时候,顺带先将满足查询条件的docid都选出来,然后构造成一个代表docid集合的bitset,这个过程和构造Query cache的过程非常类似。 之后advance操作,就是在这个bitset上完成的。
2. 为何Profile里显示的耗时几乎全部在build_scorer
?
回答第一个问题的时候提到了,如果查看PointRangeQuery的源码,构造scorer对象的构造过程包含了bitset的生成过程,所以耗时的实际上是构造一个巨大的bitset并在上面生成一个迭代器。
3. 为什么对同样的数值型字段做RangeQuery却又很快了?
从上面数值型字段的Block k-d tree的特性可以看出,rangeQuery的结果集比较小的时候,其构造bitset的代价很低,不管是从他开始迭代做nextdoc()
,或者从其他结果集开始迭代,对其做advance
,都会比较快。 但是如果rangeQuery的结果集非常巨大,则构造bitset的过程会大大延缓scorer对象的构造过程,造成结果合并过程缓慢。
这个问题官方其实早已经意识到了,所以从ES5.4开始,引入了indexOrDocValuesQuery
作为对RangeQuery的优化。(参考: better-query-planning-for-range-queries-in-elasticsearch)。 这个Query包装了上面的PointRangeQuery
和SortedSetDocValuesRangeQuery
,并且会根据Rang查询的数据集大小,以及要做的合并操作类型,决定用哪种Query。 如果Range的代价小,可以用来引领合并过程,就走PointRangeQuery
,直接构造bitset来进行迭代。 而如果range的代价高,构造bitset太慢,就使用SortedSetDocValuesRangeQuery
。 这个Query利用了DocValues这种全局docID序,并包含每个docid对应value的数据结构来做文档的匹配。 当给定一个docid的时候,一次随机磁盘访问就可以定位到该id对应的value,从而可以判断该doc是否match。 因此它非常适合从其他查询条件得到的一个小结果集作为迭代起点,对于每个docid依次调用其内部的matches()
函数判断匹配与否。也就是说, 5.4新增的indexOrDocValuesQuery
将Range查询过程中的顺序访问任务扔给Block k-d Tree索引,将随机访任务交给doc values。
值得注意的是目前这个优化只针对RangeQuery!对于TermQuery,因为实际的复杂性,还未做类似的优化,也就导致对于数值型字段,Term和Range Query的性能差异极大。
小结:
- 在ES5.x里,一定要注意数值类型是否需要做范围查询,看似数值,但其实只用于Term或者Terms这类精确匹配的,应该定义为keyword类型。典型的例子就是索引web日志时常见的HTTP Status code。
- 如果RangeQuery的结果集很大,并且还需要和其他结果集更小的查询条件做AND的,应该升级到ES5.4+,该版本在底层引入的
indexOrDocValuesQuery
,可以极大提升该场景下RangeQuery的查询速度。
社区日报 第152期 (2018-01-08)
http://t.cn/RHeXPeb
2、logstash特性更新:新的pipeline视图,更直观地监控logstash event
http://t.cn/RHea79O
3、社区讨论:多数据中心ELK Stack部署方案
http://t.cn/RHeaOsM
编辑:cyberdak
归档:https://elasticsearch.cn/article/445
订阅:https://tinyletter.com/elastic-daily
http://t.cn/RHeXPeb
2、logstash特性更新:新的pipeline视图,更直观地监控logstash event
http://t.cn/RHea79O
3、社区讨论:多数据中心ELK Stack部署方案
http://t.cn/RHeaOsM
编辑:cyberdak
归档:https://elasticsearch.cn/article/445
订阅:https://tinyletter.com/elastic-daily
收起阅读 »
社区日报 第151期 (2018-01-07)
-
如何使用Elasticsearch构建“Did You Mean”。 http://t.cn/RHBw74U
-
使用基于上下文的自动完成功能让Elasticsearch自动完成更强大。 http://t.cn/RHB2SEi
- (自备梯子)Elasticsearch:构建自动完成功能。 http://t.cn/RHBytRS
-
如何使用Elasticsearch构建“Did You Mean”。 http://t.cn/RHBw74U
-
使用基于上下文的自动完成功能让Elasticsearch自动完成更强大。 http://t.cn/RHB2SEi
- (自备梯子)Elasticsearch:构建自动完成功能。 http://t.cn/RHBytRS
社区日报 第150期 (2018-01-06)
http://t.cn/RHuwwlz
2、使用Fluentd搜集日志进行分析
http://t.cn/RHuIgzA
3、一周热点:几乎影响每个人,每台设备的芯片级安全漏洞
http://t.cn/RH8HhRF
编辑:bsll
归档:https://elasticsearch.cn/article/443
订阅:https://tinyletter.com/elastic-daily
http://t.cn/RHuwwlz
2、使用Fluentd搜集日志进行分析
http://t.cn/RHuIgzA
3、一周热点:几乎影响每个人,每台设备的芯片级安全漏洞
http://t.cn/RH8HhRF
编辑:bsll
归档:https://elasticsearch.cn/article/443
订阅:https://tinyletter.com/elastic-daily 收起阅读 »
社区日报 第149期 (2018-01-05)
http://t.cn/RHzUzl5
2、Elasticsearch.缓存分类体系
http://t.cn/RH47mO1
3、你知道elasticsearch 集群启动流程吗?
http://t.cn/RHESLQK
编辑:铭毅天下
归档:https://elasticsearch.cn/article/442
订阅: https://tinyletter.com/elastic-daily
http://t.cn/RHzUzl5
2、Elasticsearch.缓存分类体系
http://t.cn/RH47mO1
3、你知道elasticsearch 集群启动流程吗?
http://t.cn/RHESLQK
编辑:铭毅天下
归档:https://elasticsearch.cn/article/442
订阅: https://tinyletter.com/elastic-daily
收起阅读 »
社区日报 第148期 (2018-01-04)
http://t.cn/RHHK9mr
2.elasticsearch源码分析-cat API是如何加载的
http://t.cn/RHHKpJM
3.filebeat 5.3.1 结合 rancher 和 data-volume 实现横向扩展
http://t.cn/RHHKOEf
编辑:金桥
归档:https://elasticsearch.cn/article/441
订阅: https://tinyletter.com/elastic-daily
http://t.cn/RHHK9mr
2.elasticsearch源码分析-cat API是如何加载的
http://t.cn/RHHKpJM
3.filebeat 5.3.1 结合 rancher 和 data-volume 实现横向扩展
http://t.cn/RHHKOEf
编辑:金桥
归档:https://elasticsearch.cn/article/441
订阅: https://tinyletter.com/elastic-daily 收起阅读 »
社区日报 第147期 (2018-1-3)
http://t.cn/RaFHnD8
6.x 新增 Kuery
http://t.cn/RHYhKdv
2. ELK6.0 部署
http://t.cn/RHYhW7l
3. Elasticsearch 元数据(meta-fields)介绍
http://t.cn/RHYhB13
编辑:江水
归档:https://elasticsearch.cn/article/440
订阅:https://tinyletter.com/elastic-daily
http://t.cn/RaFHnD8
6.x 新增 Kuery
http://t.cn/RHYhKdv
2. ELK6.0 部署
http://t.cn/RHYhW7l
3. Elasticsearch 元数据(meta-fields)介绍
http://t.cn/RHYhB13
编辑:江水
归档:https://elasticsearch.cn/article/440
订阅:https://tinyletter.com/elastic-daily
收起阅读 »
社区日报 第146期 (2018-1-2)
http://t.cn/RHWhZ6U
2.还在为bulk rejections犯愁,看看官网详解。
http://t.cn/RY5BJy7
3.使用ELK分析Jenkins日志。
http://t.cn/RHOWw1X
编辑:叮咚光军
归档:https://elasticsearch.cn/article/439
订阅:https://tinyletter.com/elastic-daily
http://t.cn/RHWhZ6U
2.还在为bulk rejections犯愁,看看官网详解。
http://t.cn/RY5BJy7
3.使用ELK分析Jenkins日志。
http://t.cn/RHOWw1X
编辑:叮咚光军
归档:https://elasticsearch.cn/article/439
订阅:https://tinyletter.com/elastic-daily
收起阅读 »
社区日报 第145期 (2017-12-29)
http://t.cn/RHJRhik
2.中国民生银行大数据团队的Flume实践
http://t.cn/RYOh7Lc
3.Filebeat简单压测
http://t.cn/RHJRJfQ
编辑:金桥
归档:https://elasticsearch.cn/article/438
订阅: https://tinyletter.com/elastic-daily
http://t.cn/RHJRhik
2.中国民生银行大数据团队的Flume实践
http://t.cn/RYOh7Lc
3.Filebeat简单压测
http://t.cn/RHJRJfQ
编辑:金桥
归档:https://elasticsearch.cn/article/438
订阅: https://tinyletter.com/elastic-daily 收起阅读 »
社区日报 第144期 (2017-12-28)
http://t.cn/RHcsoi6
2.elasticsearch源码分析-Setting和Environment
http://t.cn/RHfjJ47
3.一个hangout的output ClickHouse插件
http://t.cn/RHcsXHq
编辑:金桥
归档:https://elasticsearch.cn/article/437
订阅: https://tinyletter.com/elastic-daily
http://t.cn/RHcsoi6
2.elasticsearch源码分析-Setting和Environment
http://t.cn/RHfjJ47
3.一个hangout的output ClickHouse插件
http://t.cn/RHcsXHq
编辑:金桥
归档:https://elasticsearch.cn/article/437
订阅: https://tinyletter.com/elastic-daily 收起阅读 »
社区日报 第143期 (2017-12-27)
http://t.cn/RH5T64q
2. elasticsearch aggregations 聚合分析
http://t.cn/RH5TCdm
3. logstash-output-jdbc 插件 支持hbase(phoenix)
http://t.cn/RH5HPeD
编辑:江水
归档:https://elasticsearch.cn/article/436
订阅:https://tinyletter.com/elastic-daily
http://t.cn/RH5T64q
2. elasticsearch aggregations 聚合分析
http://t.cn/RH5TCdm
3. logstash-output-jdbc 插件 支持hbase(phoenix)
http://t.cn/RH5HPeD
编辑:江水
归档:https://elasticsearch.cn/article/436
订阅:https://tinyletter.com/elastic-daily
收起阅读 »
社区日报 第142期 (2017-12-26)
http://t.cn/RH2FFXU
2.基于Elasticsearch的沪江搜索平台。
http://t.cn/RHLZSEk
3.使用Elasticsearch的五个结论。
http://t.cn/RHLwxM8
4.Elastic Advent Calendar, Day 25:Elastic Advent Calendar最后一文,一些众所周知的权威建议。
http://t.cn/RHLyzo4
编辑:叮咚光军
归档:https://elasticsearch.cn/article/435
订阅:https://tinyletter.com/elastic-daily
http://t.cn/RH2FFXU
2.基于Elasticsearch的沪江搜索平台。
http://t.cn/RHLZSEk
3.使用Elasticsearch的五个结论。
http://t.cn/RHLwxM8
4.Elastic Advent Calendar, Day 25:Elastic Advent Calendar最后一文,一些众所周知的权威建议。
http://t.cn/RHLyzo4
编辑:叮咚光军
归档:https://elasticsearch.cn/article/435
订阅:https://tinyletter.com/elastic-daily
收起阅读 »
社区搜索试运行
https://index.elasticsearch.cn
姑且叫做:Elastic 情报局!
这个东西有什么用?
聚合 Elastic 社区的各种资源,
- Elastic 官网资料、文档、博客、视频
- Elastic 中文社区
- Elastic 英文社区
- Github 仓库的最新事件
- 其他社区的相关主题,如 StackOverflow、Reddit等
- 等
用来提供一站式的垂直搜索,
方便提供您更好的学习和寻找参考资料。
基于开源爬虫 GOPA 和 Elasticsearch 搭建,目前试运行,功能和数据正在完善中,欢迎反馈。
https://index.elasticsearch.cn
姑且叫做:Elastic 情报局!
这个东西有什么用?
聚合 Elastic 社区的各种资源,
- Elastic 官网资料、文档、博客、视频
- Elastic 中文社区
- Elastic 英文社区
- Github 仓库的最新事件
- 其他社区的相关主题,如 StackOverflow、Reddit等
- 等
用来提供一站式的垂直搜索,
方便提供您更好的学习和寻找参考资料。
基于开源爬虫 GOPA 和 Elasticsearch 搭建,目前试运行,功能和数据正在完善中,欢迎反馈。 收起阅读 »