二次计算

记一次“访问量超过1000的人数”统计，计算聚合桶的个数

Elasticsearch • ziyou 发表了文章 • 2 个评论 • 9926 次浏览 • 2019-08-01 18:45 • 来自相关话题

前言

众所周知，在ES中有各种聚合方法能够是数据分析简单、高效。但是在繁杂的聚合方法中找到满足我们需求的那个，需要我们自己去实践。下面我就说明一下“访问量超过1000的人数”统计案例的实现。

需求

ES在使用过程中，我们公司有一个需求，就是需要统计活跃用户数，我们定义活跃用户数为：今日访问量超过1000的用户，所以我们统计活跃用户数的时候需要统计“访问量超过1000的人数”。

之前的做法

第一版统计活跃用户数的方法由于对复杂的聚合统计不熟悉的原因，就把统计分为了两步。第一步：在ES中使用字段聚合每个用户的访问数量，数量大于1000；

查询语句

{
  "aggs": {
    "user": {
      "terms": {
        "field": "userId.keyword",
        "size": 10000,
        "order": {
          "_count": "desc"
        },
        "min_doc_count": "1000"
      }
    }
  },
  "size": 0,
  "query": {
    "bool": {
      "must": [
        {
          "range": {
            "startTime": {
              "gte": "now-4h",
              "lte": "now",
              "format": "epoch_millis"
            }
          }
        }
      ]
    }
  }
}

查询结果

{
  "took" : 203,
  "timed_out" : false,
  "_shards" : {
    "total" : 1565,
    "successful" : 1565,
    "skipped" : 1520,
    "failed" : 0
  },
  "hits" : {
    "total" : 67470,
    "max_score" : 0.0,
    "hits" : [ ]
  },
  "aggregations" : {
    "user" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : "admin",
          "doc_count" : 46998
        },
        {
          "key" : "nameless",
          "doc_count" : 8416
        },
        {
          "key" : "li",
          "doc_count" : 2486
        },
        {
          "key" : "liu",
          "doc_count" : 2183
        },
        {
          "key" : "111111",
          "doc_count" : 1281
        }
      ]
    }
  }
}

第二步：从ES中获取第一步的统计结果，然后统计用户桶的个数，达到统计出个数的效果。

改进后的做法

改进后就是直接使用ES的查询，使用了sum_bucket聚合，是计算每个用户的用户ID独立数，也就是每个用户的用户ID独立数都是1，然后用桶聚合求和，得到所有的人数。参考链接：[sum bucket聚合](https://www.elastic.co/guide/en/elasticsearch/reference/6.8/search-aggregations-pipeline-sum-bucket-aggregation.html)

查询语句

{
  "aggs": {
    "usercount": {
      "sum_bucket": {
        "buckets_path": "usercount-bucket>usercount-metric"
      }
    },
    "usercount-bucket": {
      "terms": {
        "field": "userId.keyword",
        "size": 10,
        "order": {
          "_key": "desc"
        },
        "min_doc_count": "1000"
      },
      "aggs": {
        "usercount-metric": {
          "cardinality": {
            "field": "userId.keyword"
          }
        }
      }
    }
  },
  "size": 0,
  "query": {
    "bool": {
      "must": [
        {
          "range": {
            "x_st": {
              "gte": "now-4h",
              "lte": "now",
              "format": "epoch_millis"
            }
          }
        }
      ]
    }
  }
}

查询结果

{
  "took" : 106,
  "timed_out" : false,
  "_shards" : {
    "total" : 1565,
    "successful" : 1565,
    "skipped" : 1520,
    "failed" : 0
  },
  "hits" : {
    "total" : 63956,
    "max_score" : 0.0,
    "hits" : [ ]
  },
  "aggregations" : {
    "usercount-bucket" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : "nameless",
          "doc_count" : 8278,
          "usercount-metric" : {
            "value" : 1
          }
        },
        {
          "key" : "liu",
          "doc_count" : 2142,
          "usercount-metric" : {
            "value" : 1
          }
        },
        {
          "key" : "li",
          "doc_count" : 1928,
          "usercount-metric" : {
            "value" : 1
          }
        },
        {
          "key" : "admin",
          "doc_count" : 44395,
          "usercount-metric" : {
            "value" : 1
          }
        },
        {
          "key" : "111111",
          "doc_count" : 1281,
          "usercount-metric" : {
            "value" : 1
          }
        }
      ]
    },
    "usercount" : {
      "value" : 5.0
    }
  }
}

之前的做法

查询语句

{ "aggs": { "user": { "terms": { "field": "userId.keyword", "size": 10000, "order": { "_count": "desc" }, "min_doc_count": "1000" } } }, "size": 0, "query": { "bool": { "must": [ { "range": { "startTime": { "gte": "now-4h", "lte": "now", "format": "epoch_millis" } } } ] } } }

查询结果

{ "took" : 203, "timed_out" : false, "_shards" : { "total" : 1565, "successful" : 1565, "skipped" : 1520, "failed" : 0 }, "hits" : { "total" : 67470, "max_score" : 0.0, "hits" : [ ] }, "aggregations" : { "user" : { "doc_count_error_upper_bound" : 0, "sum_other_doc_count" : 0, "buckets" : [ { "key" : "admin", "doc_count" : 46998 }, { "key" : "nameless", "doc_count" : 8416 }, { "key" : "li", "doc_count" : 2486 }, { "key" : "liu", "doc_count" : 2183 }, { "key" : "111111", "doc_count" : 1281 } ] } } }

第二步：从ES中获取第一步的统计结果，然后统计用户桶的个数，达到统计出个数的效果。

改进后的做法

查询语句

{ "aggs": { "usercount": { "sum_bucket": { "buckets_path": "usercount-bucket>usercount-metric" } }, "usercount-bucket": { "terms": { "field": "userId.keyword", "size": 10, "order": { "_key": "desc" }, "min_doc_count": "1000" }, "aggs": { "usercount-metric": { "cardinality": { "field": "userId.keyword" } } } } }, "size": 0, "query": { "bool": { "must": [ { "range": { "x_st": { "gte": "now-4h", "lte": "now", "format": "epoch_millis" } } } ] } } }

查询结果

{ "took" : 106, "timed_out" : false, "_shards" : { "total" : 1565, "successful" : 1565, "skipped" : 1520, "failed" : 0 }, "hits" : { "total" : 63956, "max_score" : 0.0, "hits" : [ ] }, "aggregations" : { "usercount-bucket" : { "doc_count_error_upper_bound" : 0, "sum_other_doc_count" : 0, "buckets" : [ { "key" : "nameless", "doc_count" : 8278, "usercount-metric" : { "value" : 1 } }, { "key" : "liu", "doc_count" : 2142, "usercount-metric" : { "value" : 1 } }, { "key" : "li", "doc_count" : 1928, "usercount-metric" : { "value" : 1 } }, { "key" : "admin", "doc_count" : 44395, "usercount-metric" : { "value" : 1 } }, { "key" : "111111", "doc_count" : 1281, "usercount-metric" : { "value" : 1 } } ] }, "usercount" : { "value" : 5.0 } } }

记一次“访问量超过1000的人数”统计，计算聚合桶的个数

前言

需求

之前的做法

查询语句

查询结果

改进后的做法

查询语句

查询结果

记一次“访问量超过1000的人数”统计，计算聚合桶的个数

前言

需求

之前的做法

查询语句

查询结果

改进后的做法

查询语句

查询结果

话题描述

活动推荐

相关话题

1 人关注该话题