一例Query Cache引起的性能问题分析

【携程旅行网吴晓刚】

注：本文是针对Elastic中文社区问题question#2484 的分析和总结。

问题概述

一个线上集群，执行的Query DSL都是一样的，只是参数不同。统计数据显示98-99%的查询响应速度都很快，只需要4 -6ms，但有1%左右的查询响应时间在100ms - 200ms。集群硬件配置较高，使用的SSD，系统可用内存远高于索引文件大小总和，并且线上已经运行有一段时间，数据应该已经充分预热。

诊断过程及结论

比较巧的是，问题提出者刚好是我们自家公司的开发者，因此内部联系沟通了下，为问题的快速诊断提供了不少便利。

首先用公司的监控系统排查了一遍集群所有关键数据，未发现任何可能引起查询耗时高的性能瓶颈问题。因此初步怀疑就是有查询本身比较慢。幸好公司有应用埋点系统和日志系统，因此很方便的拿到了应用端发出的一些慢查询样例，包括请求体以及耗时。

以下是埋点系统里记录的一个耗时150ms的查询 (隐去了敏感信息，去掉了非关键部分):

POST /xxxindex/xxxdb/_search?routing=Mxxxxxxx
{
  "from": 0,
  "size": 100,
  "query": {
    "bool": {
      "filter": [
        {
          "bool": {
            "must": [
              {
                "bool": {
                  "must": [
                    {
                      "bool": {
                        "should": [
                          {
                            "match_phrase": {
                              "ord_orders_uid": {
                                "query": "Mxxxxxxx",
                                "slop": 0,
                                "boost": 1
                              }
                            }
                          }
                        ],
                        "disable_coord": false,
                        "adjust_pure_negative": true,
                        "boost": 1
                      }
                    },
                    {
                      "range": {
                        "ord_orders_orderdate": {
                          "from": "1405032032",
                          "to":   "1504014193",
                          "include_lower": true,
                          "include_upper": true,
                          "boost": 1
                        }
                      }
                    },
                    {
                      "term": {
                        "ord_orders_ispackageorder": {
                          "value": 0,
                          "boost": 1
                        }
                      }
                    },
                    {
                      "bool": {
                        "must_not": [
                          {
                            "exists": {
                              "field": "ord_hideorder_orderid",
                              "boost": 1
                            }
                          }
                        ],
                        "disable_coord": false,
                        "adjust_pure_negative": true,
                        "boost": 1
                      }
                    }
                  ],
                  "disable_coord": false,
                  "adjust_pure_negative": true,
                  "boost": 1
                }
              }
            ],
            "disable_coord": false,
            "adjust_pure_negative": true,
            "boost": 1
          }
        }
      ],
      "disable_coord": false,
      "adjust_pure_negative": true,
      "boost": 1
    }
  }
}

拿到查询后，自己手动执行了一下，0 hits，耗时1ms。心里明白，命中了Query Cache，所以才会这么快。

于是用clear api清掉Query Cache，然后再执行几次，有以下发现：

头两次查询耗时38ms左右。这是因为没有cache，需要访问倒排索引，耗时符合预期。之所以两次同样耗时，是因为索引有1个复制片，两次查询分别分配到主和副片上。
接下来两次查询耗时150ms左右。 这里要打一个大大的问号？？？
之后不管再查询多少次，耗时全部是1ms，因为又开始命中Cache。

至此，大致明白，埋点系统里记录到的高耗时查询，是步骤2的两次操作。什么操作耗时这么久呢？根据经验，我判断主要是用于为range filter生成缓存，也就生成生成文档列表的bitmap，然后存放到Query Cache里。

这个集群版本是5.1.1，而我记得ES某个5版本开始，去掉了对term filter的cache，理由是term filter速度足够快，缓存term filter往往得不偿失。查了官方release notes，证实这个改变正好是从5.1.1开始的#21566，因此上面查询里的term filters被排除掉，注意力集中到了查询里唯一的一个range filter。

单独执行了一下这个range filter，match的文档是千万数量级的。询问用户，为何这个range filter会hit这么多文档，得知用户主要就是查询从当前时间开始至过去1年的数据，类似于做了一个now-1y TO now这样的过滤。至此初步得出结论，因为这个range filter匹配的文档太多了，在Query Cache里为这个filter构建bitmap耗时会有些高，应该就是它带来了那额外的100多个ms。

但是还有一个待解释的问题，这种高耗时查询比例为何这么高？再仔细想想也就明白了：因为这个集群的搜索并发量还是有点高，300 -400/s的样子，加上时间字段的精度是秒，所以，在某一秒刚开始的时候，头2次查询因为没有cache，耗时可能在38ms左右，之后会有2次查询因为需要缓存range filter，耗时会增加到150-200ms的样子，之后这1秒里剩余的查询都会命中cache，全部是几个ms，直到下一秒开始，周而复始。因为每秒钟都产生2个这样需要构建缓存的查询，耗时较高，对比每秒几百次的查询量，换算成百分比就有点高了。

那么怎么解决这个问题？对于大量含有从now-xxx TO now这样的range查询，实际上官方的文档有对应的加速技巧介绍：tune-for-search-speed.html#_search_rounded_dates 。也就是说，将查询时间的上下限round到整分钟，或者整小时，让range filter可以缓存得更久，避免出现这种过于频繁重建cache的情况。

{
   "range": {
       "my_date": {
       "gte": "now-1y/h",
        "lte": "now-1y/h"
      }
    }
}

在原始Query里，将range filter写成上述形式，手动测试证实可行，range filter有效期延长到1小时，从而每个小时里，只需要为range filter重建2次Cache，至此问题解决。

总结:

Cache并非建得越多越好，因为Cache的生成和Evict会带来额外的开销。特别是结果集非常大的filter，缓存的代价相对查询本身可能非常高。
ES 5.1.1开始取消了Terms filter Cache，因为Terms filter执行非常快，取消缓存多数情况下反而可以提高性能。
大量用到Now-xxxd To Now这样的Range filter时，可以借助round date技巧，提高Cache的有效期，减轻频繁重建Cache带来的性能问题。

继续阅读 »

【携程旅行网吴晓刚】

注：本文是针对Elastic中文社区问题question#2484 的分析和总结。

问题概述

一个线上集群，执行的Query DSL都是一样的，只是参数不同。统计数据显示98-99%的查询响应速度都很快，只需要4 -6ms，但有1%左右的查询响应时间在100ms - 200ms。集群硬件配置较高，使用的SSD，系统可用内存远高于索引文件大小总和，并且线上已经运行有一段时间，数据应该已经充分预热。

诊断过程及结论

比较巧的是，问题提出者刚好是我们自家公司的开发者，因此内部联系沟通了下，为问题的快速诊断提供了不少便利。

首先用公司的监控系统排查了一遍集群所有关键数据，未发现任何可能引起查询耗时高的性能瓶颈问题。因此初步怀疑就是有查询本身比较慢。幸好公司有应用埋点系统和日志系统，因此很方便的拿到了应用端发出的一些慢查询样例，包括请求体以及耗时。

以下是埋点系统里记录的一个耗时150ms的查询 (隐去了敏感信息，去掉了非关键部分):

POST /xxxindex/xxxdb/_search?routing=Mxxxxxxx
{
  "from": 0,
  "size": 100,
  "query": {
    "bool": {
      "filter": [
        {
          "bool": {
            "must": [
              {
                "bool": {
                  "must": [
                    {
                      "bool": {
                        "should": [
                          {
                            "match_phrase": {
                              "ord_orders_uid": {
                                "query": "Mxxxxxxx",
                                "slop": 0,
                                "boost": 1
                              }
                            }
                          }
                        ],
                        "disable_coord": false,
                        "adjust_pure_negative": true,
                        "boost": 1
                      }
                    },
                    {
                      "range": {
                        "ord_orders_orderdate": {
                          "from": "1405032032",
                          "to":   "1504014193",
                          "include_lower": true,
                          "include_upper": true,
                          "boost": 1
                        }
                      }
                    },
                    {
                      "term": {
                        "ord_orders_ispackageorder": {
                          "value": 0,
                          "boost": 1
                        }
                      }
                    },
                    {
                      "bool": {
                        "must_not": [
                          {
                            "exists": {
                              "field": "ord_hideorder_orderid",
                              "boost": 1
                            }
                          }
                        ],
                        "disable_coord": false,
                        "adjust_pure_negative": true,
                        "boost": 1
                      }
                    }
                  ],
                  "disable_coord": false,
                  "adjust_pure_negative": true,
                  "boost": 1
                }
              }
            ],
            "disable_coord": false,
            "adjust_pure_negative": true,
            "boost": 1
          }
        }
      ],
      "disable_coord": false,
      "adjust_pure_negative": true,
      "boost": 1
    }
  }
}

拿到查询后，自己手动执行了一下，0 hits，耗时1ms。心里明白，命中了Query Cache，所以才会这么快。

于是用clear api清掉Query Cache，然后再执行几次，有以下发现：

头两次查询耗时38ms左右。这是因为没有cache，需要访问倒排索引，耗时符合预期。之所以两次同样耗时，是因为索引有1个复制片，两次查询分别分配到主和副片上。
接下来两次查询耗时150ms左右。 这里要打一个大大的问号？？？
之后不管再查询多少次，耗时全部是1ms，因为又开始命中Cache。

至此，大致明白，埋点系统里记录到的高耗时查询，是步骤2的两次操作。什么操作耗时这么久呢？根据经验，我判断主要是用于为range filter生成缓存，也就生成生成文档列表的bitmap，然后存放到Query Cache里。

这个集群版本是5.1.1，而我记得ES某个5版本开始，去掉了对term filter的cache，理由是term filter速度足够快，缓存term filter往往得不偿失。查了官方release notes，证实这个改变正好是从5.1.1开始的#21566，因此上面查询里的term filters被排除掉，注意力集中到了查询里唯一的一个range filter。

单独执行了一下这个range filter，match的文档是千万数量级的。询问用户，为何这个range filter会hit这么多文档，得知用户主要就是查询从当前时间开始至过去1年的数据，类似于做了一个now-1y TO now这样的过滤。至此初步得出结论，因为这个range filter匹配的文档太多了，在Query Cache里为这个filter构建bitmap耗时会有些高，应该就是它带来了那额外的100多个ms。

但是还有一个待解释的问题，这种高耗时查询比例为何这么高？再仔细想想也就明白了：因为这个集群的搜索并发量还是有点高，300 -400/s的样子，加上时间字段的精度是秒，所以，在某一秒刚开始的时候，头2次查询因为没有cache，耗时可能在38ms左右，之后会有2次查询因为需要缓存range filter，耗时会增加到150-200ms的样子，之后这1秒里剩余的查询都会命中cache，全部是几个ms，直到下一秒开始，周而复始。因为每秒钟都产生2个这样需要构建缓存的查询，耗时较高，对比每秒几百次的查询量，换算成百分比就有点高了。

那么怎么解决这个问题？对于大量含有从now-xxx TO now这样的range查询，实际上官方的文档有对应的加速技巧介绍：tune-for-search-speed.html#_search_rounded_dates 。也就是说，将查询时间的上下限round到整分钟，或者整小时，让range filter可以缓存得更久，避免出现这种过于频繁重建cache的情况。

{
   "range": {
       "my_date": {
       "gte": "now-1y/h",
        "lte": "now-1y/h"
      }
    }
}

在原始Query里，将range filter写成上述形式，手动测试证实可行，range filter有效期延长到1小时，从而每个小时里，只需要为range filter重建2次Cache，至此问题解决。

总结:

Cache并非建得越多越好，因为Cache的生成和Evict会带来额外的开销。特别是结果集非常大的filter，缓存的代价相对查询本身可能非常高。
ES 5.1.1开始取消了Terms filter Cache，因为Terms filter执行非常快，取消缓存多数情况下反而可以提高性能。
大量用到Now-xxxd To Now这样的Range filter时，可以借助round date技巧，提高Cache的有效期，减轻频繁重建Cache带来的性能问题。

收起阅读 »

文件（txt,html,pdf,word...）导入到Elasticsearch实现全文检索

百度Fscrawler或ambar

社区日报第62期 (2017-09-29)

1、profiling 工具 | 一眼看透慢查询！
http://t.cn/RInoI4c
2、ElasticSearch的实时日志系统架构与总结。
http://t.cn/RaX2lMm
3、你早该知道的Elasticsearch性能指标！
http://t.cn/R0Nn3KK
4、P2P领域ES实战经验分享！
http://t.cn/R0NmyhU

编辑：laoyang360
归档：https://www.elasticsearch.cn/article/302
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

中文值的字段是string的类型吗？我有一个字段类型一直显示unknown

我新增加了一个字段，对应的值是中文的

如上图我的这个字段类型一直是unknown,下图是配置方式：

es 是5.4的
logstash 5.4
kibana 5.4

继续阅读 »

Kibana 插件开发教程

最近公司有开发kibana plugin 需求，正好有时间研究这块。现将自己学习过程及官方资源写成一个浅显易懂的kibana plugin 开发教程书籍

在线阅读地址

内容还在持续增加，欢迎有这方面经验的人加入我们。

案例一下博客，欢迎follower,欢迎交流！

继续阅读 »

社区日报第61期 (2017-09-28)

1.将elasticsearch的数据自动metric到prometheus http://t.cn/R09JjJh
2.详解Elasticsearch的nested类型aggregations？ http://t.cn/R0Nk3EA
3.社区热议：elasticsearch的中文打分到底是怎样的呢？ https://elasticsearch.cn/question/2275

编辑：金桥
归档：https://elasticsearch.cn/article/299
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

社区日报第60期 (2017-09-27)

1. Elasticsearch大文件检索性能优化
http://t.cn/R0SZfFx
2. 利用Elasticsearch、Beats、Logstash、Grafana完成API实时监控（需要翻墙）
http://t.cn/R0SZo52
3. 小众SKD Elasticsearch的Lua客户端（Github）
http://t.cn/RLZkGbS

滴滴招聘：
https://elasticsearch.cn/article/296

编辑：江水
归档：https://elasticsearch.cn/article/298
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

【滴滴招聘】ES技术专家

工作地点：杭州

薪资待遇：25k ~ 50k

工作挑战：

PB级数据的检索平台，峰值千万条数据的实时写入，1000+ES节点，数百个线上应用场景的支撑。

工作职责：

1. 独立完成中大型项目的系统分析、设计，并能够完成核心代码的编写，确保技术方案能够按计划要求，高质量的完成；
2. 具有一定的技术架构思维，确保设计的技术方案、开发的代码有较高性能、质量保障、扩展性，前瞻性；
3. 对技术有较强的钻研及学习精神，能够深入了解开源技术、现有系统技术等相关技术原理，出现问题时能够通过较强的技术手段较好的解决问题；

岗位要求:

1. JAVA基础扎实，理解io、多线程、集合等基础框架，对JVM原理有一定的了解；
2. 3年及以上使用JAVA开发的经验，对于用过的开源框架，能了解到它的原理和机制；
3. 对spring,mybatis,kafka,spark,elasticsearch等开源框架熟悉者优先；
4. 熟悉分布式系统的设计和应用，能对分布式常用技术进行合理应用，解决问题；
5. 掌握多线程及高性能的设计与编码及性能调优；有高并发应用开发经验优先；
6. 学习能力强，适应能力好；具备耐心/细心的品质；
7. 我们希望你喜欢去看及尝试最新的技术，追求编写优雅的代码，从技术趋势和思路上能影响技术团队

简历投递：weizijun@didichuxing.com

继续阅读 »

社区日报第59期 (2017-09-26)

1.如何用亚马逊S3存储一个ES服务索引。
http://t.cn/R0fAJwK
2.ELK实战 - 利用Nginx日志分析API耗时。
http://t.cn/R6sgQfU
3.Kibana中的地区分布图和仪表盘工具，强大而又实用。
http://t.cn/Rpry9fv

编辑：叮咚光军
归档：https://elasticsearch.cn/article/295
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

社区日报第58期 (2017-09-25)

1.沃玛特的准实时零售数据分析。
http://t.cn/R0cFOIz

2.(自备梯子)如何完成360亿数据的reindex。
http://t.cn/R0VPRLa

3.使用Beats？elastic发布了一个关于Beats的问卷，填写它来帮助Beats更好的发展。
http://t.cn/R0VZZAL

编辑：cyberdak
归档：https://elasticsearch.cn/article/294
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

社区日报第57期 (2017-09-24)

1.如何在Node.js应用中集成Elasticsearch。
http://t.cn/R0GmjQC
2.(自备梯子)不仅仅是一篇Elasticsearch入门级文章！看看别人的团队是怎么选的吧。
http://t.cn/R0GmTgf
3.Elasticsearch最佳实践，看看大牛在日常工作中都是怎么做的。
http://t.cn/R0Gm8bE

编辑：至尊宝
归档：https://elasticsearch.cn/article/293
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

社区日报第56期 (2017-09-23)

1、学习深度定制自己的分析器

http://t.cn/RCTbs2d

2. es6.0节省了更多的存储空间，你知道原因吗？

http://t.cn/R0LvDlt

3. 一个用elasticsearch追踪网站点击的案例

http://t.cn/R9kMs8G

编辑：bsll

归档：https://www.elasticsearch.cn/article/292

订阅：https://tinyletter.com/elastic-daily

继续阅读 »

社区日报第55期 (2017-09-22)

1、Elasticsearch 常用数据结构及算法深入解读PPT
http://t.cn/R0297wW
2、这一招，解决了mysql与elasticsearch删除同步的难题！
http://t.cn/R029ld9
3、ElasticPress | 基于Elasticsearch构建你的wordpress博客检索助手！
http://t.cn/R07kUUQ

编辑：laoyang360
归档：https://www.elasticsearch.cn/article/290
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

【摩拜招聘】ES高级工程师

【摩拜-北京】 ES高级工程师
工作职责：
开发、维护ES，支持各种场景需求
开发、维护fluentd/flume/kafka等大数据产品
业务推动，解决大数据、高并发下的产品需求
跟进研究业界前沿技术，推动产品技术升级

职位要求：
1. 编程能力扎实，熟悉Java/C++/go中的一种，具有良好的数据结构、算法、操作系统等计算机基本知识；
2. 熟悉ElasticSearch/Lucene开源系统，有实际开发经验者优先；
3. 具有敏捷开发、完整产品生命周期开发者优先；
4. 学习能力强，善于独立思考，思维活跃，对技术有强烈激情；

欢迎投递简历：zhengchangshuai@mobike.com
薪资20K～50K
公司属于高速成长的独角兽，非常国际化的一家公司，具体感兴趣的请发简历到邮箱

继续阅读 »

社区日报第54期 (2017-09-21)

1.使用esrally深入elasticsearch的性能测试 https://elasticsearch.cn/article/275
2.还在为设置es的分片数量纠结？一篇文章教你全部 http://t.cn/R0vFh2G
3.基于elasticsearch nested object的关联分析 http://t.cn/R0vFMG9

编辑：金桥
归档：https://elasticsearch.cn/article/287
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

一例Query Cache引起的性能问题分析

问题概述

诊断过程及结论

总结:

问题概述

诊断过程及结论

总结:

文件（txt,html,pdf,word...）导入到Elasticsearch实现全文检索

社区日报第62期 (2017-09-29)

中文值的字段是string的类型吗？我有一个字段类型一直显示unknown

Kibana 插件开发教程

社区日报第61期 (2017-09-28)

社区日报第60期 (2017-09-27)

【滴滴招聘】ES技术专家

社区日报第59期 (2017-09-26)

社区日报第58期 (2017-09-25)

社区日报第57期 (2017-09-24)

社区日报第56期 (2017-09-23)

社区日报第55期 (2017-09-22)

【摩拜招聘】ES高级工程师

社区日报第54期 (2017-09-21)

活动推荐

热门文章

热门话题