文章 - 搜索客，搜索人自己的社区

社区日报第692期 (2019-08-06)

1、使用Elasticsearch快速实现一个搜索引擎。 
http://tinyurl.com/y6fpykrr 
2、（自带梯子）使用nginx提升Elasticsearch索引性能和负载。
http://tinyurl.com/y6cdhbty
3、一些结合工作实践的Elasticsearch调优经验。
http://tinyurl.com/yxss9ywn

编辑：叮咚光军  
归档：https://ela.st/cn-daily-all
 订阅：https://ela.st/cn-daily-sub 
沙龙：https://ela.st/cn-meetup

继续阅读 »

【绿湾科技】搜索开发工程师/架构师

一、职位职责：
1、参与搜索平台功能研发，支撑多业务、多产品不同场景下的搜索服务
2、参与搜索平台性能的持续优化，包括存储访问，查询执行，分布式架构等方面的不断改进
3、参与搜索平台架构、部署、稳定性、易用性等方面的持续改进
4、参与搜索排序持续优化，负责将机器学习应用到排序、NLP等方面

二、职位要求：
1、本科及以上学历，计算机、数学相关专业，工作一年以上
2、熟悉linux平台上java开发，对多线程、常用数据结构有良好的认识
3、参与过大型搜索、广告或者推荐系统、知识图谱系统的实际研发，了解搜索原理、性能优化优先
4、熟悉常用开源组件优先，比如ElasticSearch、Flink、Kafka、zk等
5、对有挑战性的问题充满激情，具有良好的团队合作精神和较强的沟通能力以及抗压能力
6、热爱学习新技术、新算法，能够将新算法实现应用到现有的业务中

三、福利待遇：
30K~60K++五险一金+弹性工作时间+年假+年度体检+年终奖+每天下午茶等等，能力强者待遇OPEN，期待牛人加入

四、简历投递
简历发送至： lihaifeng@lvwan.com

工作地址
         北京海淀区八号线西小口附近

公司情况
      绿湾成立于2014年9月，是一家拥有核心大数据技术和产品的创新型互联网高科技公司，聚焦政府、金融等大数据领域，以解决场景化的大数据问题作为核心切入点，提供基于开放架构的存储、分析、挖掘、可视化、用户画像、风险控制等大数据整体解决方案。
      1、公司目前员工超过200人，70%为技术人员，一半以上是BAT背景，其他也是一线知名互联网公司技术人员背景
      2、创始人背景：张凯：创始人、CEO 拥有超过12年的互联网行业的业务运营与团队管理经验，并对互联网大数据商业模式有着极其敏锐的嗅觉和切实的解决方案齐飞：联合创始人、SVP ，先后就职于华为、百度、优酷，历任架构师、百度TC秘书长、产品技术总监，有着丰富的技术和百人以上团队管理经验秦锋剑：就职阿里、百度9年百度新闻负责人。有极其优秀的产品设计、大数据挖掘和领导力

继续阅读 »

一、职位职责：
1、参与搜索平台功能研发，支撑多业务、多产品不同场景下的搜索服务
2、参与搜索平台性能的持续优化，包括存储访问，查询执行，分布式架构等方面的不断改进
3、参与搜索平台架构、部署、稳定性、易用性等方面的持续改进
4、参与搜索排序持续优化，负责将机器学习应用到排序、NLP等方面

二、职位要求：
1、本科及以上学历，计算机、数学相关专业，工作一年以上
2、熟悉linux平台上java开发，对多线程、常用数据结构有良好的认识
3、参与过大型搜索、广告或者推荐系统、知识图谱系统的实际研发，了解搜索原理、性能优化优先
4、熟悉常用开源组件优先，比如ElasticSearch、Flink、Kafka、zk等
5、对有挑战性的问题充满激情，具有良好的团队合作精神和较强的沟通能力以及抗压能力
6、热爱学习新技术、新算法，能够将新算法实现应用到现有的业务中

三、福利待遇：
30K~60K++五险一金+弹性工作时间+年假+年度体检+年终奖+每天下午茶等等，能力强者待遇OPEN，期待牛人加入

四、简历投递
简历发送至： lihaifeng@lvwan.com

工作地址
         北京海淀区八号线西小口附近

公司情况
      绿湾成立于2014年9月，是一家拥有核心大数据技术和产品的创新型互联网高科技公司，聚焦政府、金融等大数据领域，以解决场景化的大数据问题作为核心切入点，提供基于开放架构的存储、分析、挖掘、可视化、用户画像、风险控制等大数据整体解决方案。
      1、公司目前员工超过200人，70%为技术人员，一半以上是BAT背景，其他也是一线知名互联网公司技术人员背景
      2、创始人背景：张凯：创始人、CEO 拥有超过12年的互联网行业的业务运营与团队管理经验，并对互联网大数据商业模式有着极其敏锐的嗅觉和切实的解决方案齐飞：联合创始人、SVP ，先后就职于华为、百度、优酷，历任架构师、百度TC秘书长、产品技术总监，有着丰富的技术和百人以上团队管理经验秦锋剑：就职阿里、百度9年百度新闻负责人。有极其优秀的产品设计、大数据挖掘和领导力收起阅读 »

社区日报第691期 (2019-08-05)

1.Elasticsearch 跨集群同步
http://t.cn/AiYElpwO

2.Kibana 5个小技巧
http://t.cn/RnSBs0w

3.logstash的各个场景应用（配置文件均已实践过）
http://t.cn/AijRXwjW

编辑：cyberdak
归档：https://ela.st/cn-daily-all
订阅：https://ela.st/cn-daily-sub
沙龙：https://ela.st/cn-meetup

继续阅读 »

【转发】ES 开发工程师招聘

帮朋友招聘 ES 技术人员，感兴趣的去聊！需要具备研发能力！
ES开发⼯程师

⼯作职责：
1、负责搭建ElasticSearch集群以及相关的配置优化；
2、负责数据分析系统部分设计和开发⼯作；
3、根据业务需求和⽬标，将数据模型转化为实际应⽤；
4、提升系统和集群性能，优化代码和数据结构。

技能及资质要求：
1、本科及以上学历，计算机专业背景，有独⽴分析问题和解决问题的能⼒；
2、熟练掌握ElasticSearch，熟悉其原理、常⽤算法和源代码；
3、具有良好的数据结构/算法、⽹络、操作系统等计算机基础知识；
4、具有良好的沟通能⼒和责任⼼。

公司介绍：
荟品仓（HPC）中国领先的O2O模式⼯⼚特卖直购平台，线下有多家⼤型仓储式体验⻔门店，总部设于上海。荟品仓创新的商业模式，已经和国内外数百个品牌的品牌总部和⼯⼚建⽴战略合作关系，以保证货品来⾃⾏业源头，保证品牌正品、保证特卖低价，减少商品的中间流通环节，以做到低成本、⾼效率，让利于会员⽤户！荟品仓已升级打造线下⼤型⻔门店，秉承“品牌正品、⼯⼚特卖、超值体验”的经营理念，将“艺术化、⼯业⻛风、仓储式、休闲感”元素融⼊线下⻔门店，打造集服装特卖、咖啡、简餐、移动电商体验于⼀体的线上线下O2O仓储直购中⼼。公司已获得多家顶级VC的投资，在这⾥我们可以伴随公司⼀起成⻓长和收获。

有意向者，请将简历发送⾄：liwei@hpcang.com

继续阅读 »

社区日报第690期 (2019-08-04)

1.使用ELK收集和分析Kafka日志。
http://t.cn/AiYY4BuE
2.使用Spring Boot微服务设置ELK堆栈。
http://t.cn/AiYYGkuf
3.(自备梯子)如何阻止电子邮件对你进行间谍活动。
http://t.cn/AiYY6jAr

编辑：至尊宝
归档：https://ela.st/cn-daily-all
订阅：https://ela.st/cn-daily-sub
沙龙：https://ela.st/cn-meetup

继续阅读 »

社区日报第689期 (2019-08-03）

1.es集群测试工具rally http://t.cn/AiY0eoBa

2.使用function_score的一些实例（需翻墙） http://t.cn/RQ45Wva

3.一周热点：《哪吒》刷爆朋友圈 http://t.cn/AiY0rKja

继续阅读 »

社区日报第688期 (2019-08-02)

1、Elastic Stack 7.3.0 重磅发布
https://tinyurl.com/yynpe4ly
2、NMap数据ELK实战分析
https://tinyurl.com/y2em42b2
3、开源：Elasticsearch股票预测
https://tinyurl.com/y5egx5mr

编辑：铭毅天下
归档：https://ela.st/cn-daily-all
订阅：https://ela.st/cn-daily-sub
沙龙：https://ela.st/cn-meetup

继续阅读 »

记一次“访问量超过1000的人数”统计，计算聚合桶的个数

前言

众所周知，在ES中有各种聚合方法能够是数据分析简单、高效。但是在繁杂的聚合方法中找到满足我们需求的那个，需要我们自己去实践。下面我就说明一下“访问量超过1000的人数”统计案例的实现。

需求

ES在使用过程中，我们公司有一个需求，就是需要统计活跃用户数，我们定义活跃用户数为：今日访问量超过1000的用户，所以我们统计活跃用户数的时候需要统计“访问量超过1000的人数”。

之前的做法

第一版统计活跃用户数的方法由于对复杂的聚合统计不熟悉的原因，就把统计分为了两步。第一步：在ES中使用字段聚合每个用户的访问数量，数量大于1000；

查询语句

{
  "aggs": {
    "user": {
      "terms": {
        "field": "userId.keyword",
        "size": 10000,
        "order": {
          "_count": "desc"
        },
        "min_doc_count": "1000"
      }
    }
  },
  "size": 0,
  "query": {
    "bool": {
      "must": [
        {
          "range": {
            "startTime": {
              "gte": "now-4h",
              "lte": "now",
              "format": "epoch_millis"
            }
          }
        }
      ]
    }
  }
}

查询结果

{
  "took" : 203,
  "timed_out" : false,
  "_shards" : {
    "total" : 1565,
    "successful" : 1565,
    "skipped" : 1520,
    "failed" : 0
  },
  "hits" : {
    "total" : 67470,
    "max_score" : 0.0,
    "hits" : [ ]
  },
  "aggregations" : {
    "user" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : "admin",
          "doc_count" : 46998
        },
        {
          "key" : "nameless",
          "doc_count" : 8416
        },
        {
          "key" : "li",
          "doc_count" : 2486
        },
        {
          "key" : "liu",
          "doc_count" : 2183
        },
        {
          "key" : "111111",
          "doc_count" : 1281
        }
      ]
    }
  }
}

第二步：从ES中获取第一步的统计结果，然后统计用户桶的个数，达到统计出个数的效果。

改进后的做法

改进后就是直接使用ES的查询，使用了sum_bucket聚合，是计算每个用户的用户ID独立数，也就是每个用户的用户ID独立数都是1，然后用桶聚合求和，得到所有的人数。参考链接：[sum bucket聚合](https://www.elastic.co/guide/en/elasticsearch/reference/6.8/search-aggregations-pipeline-sum-bucket-aggregation.html)

查询语句

{
  "aggs": {
    "usercount": {
      "sum_bucket": {
        "buckets_path": "usercount-bucket>usercount-metric"
      }
    },
    "usercount-bucket": {
      "terms": {
        "field": "userId.keyword",
        "size": 10,
        "order": {
          "_key": "desc"
        },
        "min_doc_count": "1000"
      },
      "aggs": {
        "usercount-metric": {
          "cardinality": {
            "field": "userId.keyword"
          }
        }
      }
    }
  },
  "size": 0,
  "query": {
    "bool": {
      "must": [
        {
          "range": {
            "x_st": {
              "gte": "now-4h",
              "lte": "now",
              "format": "epoch_millis"
            }
          }
        }
      ]
    }
  }
}

查询结果

{
  "took" : 106,
  "timed_out" : false,
  "_shards" : {
    "total" : 1565,
    "successful" : 1565,
    "skipped" : 1520,
    "failed" : 0
  },
  "hits" : {
    "total" : 63956,
    "max_score" : 0.0,
    "hits" : [ ]
  },
  "aggregations" : {
    "usercount-bucket" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : "nameless",
          "doc_count" : 8278,
          "usercount-metric" : {
            "value" : 1
          }
        },
        {
          "key" : "liu",
          "doc_count" : 2142,
          "usercount-metric" : {
            "value" : 1
          }
        },
        {
          "key" : "li",
          "doc_count" : 1928,
          "usercount-metric" : {
            "value" : 1
          }
        },
        {
          "key" : "admin",
          "doc_count" : 44395,
          "usercount-metric" : {
            "value" : 1
          }
        },
        {
          "key" : "111111",
          "doc_count" : 1281,
          "usercount-metric" : {
            "value" : 1
          }
        }
      ]
    },
    "usercount" : {
      "value" : 5.0
    }
  }
}

继续阅读 »

前言

众所周知，在ES中有各种聚合方法能够是数据分析简单、高效。但是在繁杂的聚合方法中找到满足我们需求的那个，需要我们自己去实践。下面我就说明一下“访问量超过1000的人数”统计案例的实现。

需求

ES在使用过程中，我们公司有一个需求，就是需要统计活跃用户数，我们定义活跃用户数为：今日访问量超过1000的用户，所以我们统计活跃用户数的时候需要统计“访问量超过1000的人数”。

之前的做法

第一版统计活跃用户数的方法由于对复杂的聚合统计不熟悉的原因，就把统计分为了两步。第一步：在ES中使用字段聚合每个用户的访问数量，数量大于1000；

查询语句

{
  "aggs": {
    "user": {
      "terms": {
        "field": "userId.keyword",
        "size": 10000,
        "order": {
          "_count": "desc"
        },
        "min_doc_count": "1000"
      }
    }
  },
  "size": 0,
  "query": {
    "bool": {
      "must": [
        {
          "range": {
            "startTime": {
              "gte": "now-4h",
              "lte": "now",
              "format": "epoch_millis"
            }
          }
        }
      ]
    }
  }
}

查询结果

{
  "took" : 203,
  "timed_out" : false,
  "_shards" : {
    "total" : 1565,
    "successful" : 1565,
    "skipped" : 1520,
    "failed" : 0
  },
  "hits" : {
    "total" : 67470,
    "max_score" : 0.0,
    "hits" : [ ]
  },
  "aggregations" : {
    "user" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : "admin",
          "doc_count" : 46998
        },
        {
          "key" : "nameless",
          "doc_count" : 8416
        },
        {
          "key" : "li",
          "doc_count" : 2486
        },
        {
          "key" : "liu",
          "doc_count" : 2183
        },
        {
          "key" : "111111",
          "doc_count" : 1281
        }
      ]
    }
  }
}

第二步：从ES中获取第一步的统计结果，然后统计用户桶的个数，达到统计出个数的效果。

改进后的做法

改进后就是直接使用ES的查询，使用了sum_bucket聚合，是计算每个用户的用户ID独立数，也就是每个用户的用户ID独立数都是1，然后用桶聚合求和，得到所有的人数。参考链接：[sum bucket聚合](https://www.elastic.co/guide/en/elasticsearch/reference/6.8/search-aggregations-pipeline-sum-bucket-aggregation.html)

查询语句

{
  "aggs": {
    "usercount": {
      "sum_bucket": {
        "buckets_path": "usercount-bucket>usercount-metric"
      }
    },
    "usercount-bucket": {
      "terms": {
        "field": "userId.keyword",
        "size": 10,
        "order": {
          "_key": "desc"
        },
        "min_doc_count": "1000"
      },
      "aggs": {
        "usercount-metric": {
          "cardinality": {
            "field": "userId.keyword"
          }
        }
      }
    }
  },
  "size": 0,
  "query": {
    "bool": {
      "must": [
        {
          "range": {
            "x_st": {
              "gte": "now-4h",
              "lte": "now",
              "format": "epoch_millis"
            }
          }
        }
      ]
    }
  }
}

查询结果

{
  "took" : 106,
  "timed_out" : false,
  "_shards" : {
    "total" : 1565,
    "successful" : 1565,
    "skipped" : 1520,
    "failed" : 0
  },
  "hits" : {
    "total" : 63956,
    "max_score" : 0.0,
    "hits" : [ ]
  },
  "aggregations" : {
    "usercount-bucket" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : "nameless",
          "doc_count" : 8278,
          "usercount-metric" : {
            "value" : 1
          }
        },
        {
          "key" : "liu",
          "doc_count" : 2142,
          "usercount-metric" : {
            "value" : 1
          }
        },
        {
          "key" : "li",
          "doc_count" : 1928,
          "usercount-metric" : {
            "value" : 1
          }
        },
        {
          "key" : "admin",
          "doc_count" : 44395,
          "usercount-metric" : {
            "value" : 1
          }
        },
        {
          "key" : "111111",
          "doc_count" : 1281,
          "usercount-metric" : {
            "value" : 1
          }
        }
      ]
    },
    "usercount" : {
      "value" : 5.0
    }
  }
}

收起阅读 »

社区日报第687期 (2019-08-01)

1.使用canal有序同步MySQL数据到ES
http://t.cn/AiYA5DfC
2.深入分析Elastic Search的写入过程
http://t.cn/AiY7Z1uB
3.怎么解决Skywalking对应的ES的CPU高的问题
http://t.cn/AiYA5rNW

编辑：金桥
归档：https://ela.st/cn-daily-all
订阅：https://ela.st/cn-daily-sub
沙龙：https://ela.st/cn-meetup

继续阅读 »

社区日报第686期 (2019-07-31)

1.倒排索引,正排索引与 Lucene
http://t.cn/AiYZgtrN
2.基于 MySQL Binlog 的 Elasticsearch 数据同步实践
http://t.cn/AilL7Q05
3.Elasticsearch 集群优化之海量时序数据处理
http://t.cn/AiYZe8bE

编辑：江水
归档：https://ela.st/cn-daily-all
订阅：https://ela.st/cn-daily-sub
沙龙：https://ela.st/cn-meetup

继续阅读 »

ES6.8权限使用配置

概述
ES的权限控制一直ES使用中的一个问题，因为官方之前一直未免费安全性功能。公司要不选择使用其他插件来解决，要不就是只在内网使用。现在在ES6.8及以后版本ES将部分安全性功能免费开放了，现在我们就6.8版本的【基于角色的访问控制】进行操作、验证。
1、下载安装ELK6.8版本(此处省略)
ES在6.8以后发布的版本才有（7.0是发布在6.8之前的）
2、修改ES配置文件 elasticsearch.yml
在配置文件中添加：

xpack.security.enabled: true

基础版本的安全性功能是默认关闭的。
然后启动ES

./elasticsearch -d

3、设置内置用户密码
参考：内置用户

./bin/elasticsearch-setup-passwords interactive

这里设置的密码要记住，后面会使用到。我们设置简单的密码：123456（密码不能少于6位）
如果是Windows请使用CMD命令行执行
按照提示设置内置用户密码
4、设置kibana用户名密码
在kibana的配置文件kibana.yml里面添加

elasticsearch.username: "kibana"

elasticsearch.password: "123456"

5、然后启动kibana
启动kibana就可以使用用户名与密码进行访问。

6、设置logstash用户名和密码
打开配置文件conf，在output中的elasticsearch中添加user、password
例：

output {

    elasticsearch {

      hosts => ["10.68.24.136:9200","10.68.24.137:9200"]

      index => "%{[indexName]}-%{+YYYY.MM.dd}"

      user => "logstash_system"

      password => "123456"

    }

继续阅读 »

概述
ES的权限控制一直ES使用中的一个问题，因为官方之前一直未免费安全性功能。公司要不选择使用其他插件来解决，要不就是只在内网使用。现在在ES6.8及以后版本ES将部分安全性功能免费开放了，现在我们就6.8版本的【基于角色的访问控制】进行操作、验证。
1、下载安装ELK6.8版本(此处省略)
ES在6.8以后发布的版本才有（7.0是发布在6.8之前的）
2、修改ES配置文件 elasticsearch.yml
在配置文件中添加：

xpack.security.enabled: true

基础版本的安全性功能是默认关闭的。
然后启动ES

./elasticsearch -d

3、设置内置用户密码
参考：内置用户

./bin/elasticsearch-setup-passwords interactive

这里设置的密码要记住，后面会使用到。我们设置简单的密码：123456（密码不能少于6位）
如果是Windows请使用CMD命令行执行
按照提示设置内置用户密码
4、设置kibana用户名密码
在kibana的配置文件kibana.yml里面添加

elasticsearch.username: "kibana"

elasticsearch.password: "123456"

5、然后启动kibana
启动kibana就可以使用用户名与密码进行访问。

6、设置logstash用户名和密码
打开配置文件conf，在output中的elasticsearch中添加user、password
例：

output {

    elasticsearch {

      hosts => ["10.68.24.136:9200","10.68.24.137:9200"]

      index => "%{[indexName]}-%{+YYYY.MM.dd}"

      user => "logstash_system"

      password => "123456"

    }

收起阅读 »

社区日报第685期 (2019-07-30)

1.如果你对于 elasticsearch 中 date 类型的使用有疑惑，不妨看看这篇文章(自行准备梯子)
http://t.cn/AiYvpm0g
2.Elasticsearch SIEM 官方介绍视频
http://t.cn/AiYv0T4F
3.ECE 2.3 版本发布，新增 RBAC 权限管理机制，快来看看吧
http://t.cn/AiYvWX17

编辑：rockybean
归档：https://ela.st/cn-daily-all
订阅：https://ela.st/cn-daily-sub
沙龙：https://ela.st/cn-meetup

继续阅读 »

社区日报第684期 (2019-07-29)

1.不停服务 ElasticSearch 集群物理拆分
http://t.cn/Aij1b0yW
2.Elasticsearch 集群在QQ阅读评论服务的实践
http://t.cn/Aij1tGUf
3.聊聊Elasticsearch的CachedSupplier
http://t.cn/Aij1cSbG

编辑：cyberdak
归档：https://ela.st/cn-daily-all
订阅：https://ela.st/cn-daily-sub
沙龙：https://ela.st/cn-meetup

继续阅读 »

社区日报第683期 (2019-07-28)

1.使用ELK和Logz.io记录Istio。
http://t.cn/AijlJa8t
2.ElasticSearch聚合简介。
http://t.cn/Aijl6gPy
3.(自备梯子)你的手机给你带来了头痛吗？ OLED屏幕可能会受到责备。
http://t.cn/AijlSt8J

编辑：至尊宝
归档：https://ela.st/cn-daily-all
订阅：https://ela.st/cn-daily-sub
沙龙：https://ela.st/cn-meetup

继续阅读 »

社区日报第682期 (2019-07-27）

1.5个es优化的tips http://t.cn/AijNklla

2.用于调试es或solr查询结果的沙盒工具 http://t.cn/Aijp7c2o

3.jcseg:集成常用NLP功能的分词器 http://t.cn/R5iirZ2

继续阅读 »

社区日报第692期 (2019-08-06)

【绿湾科技】搜索开发工程师/架构师

社区日报第691期 (2019-08-05)

【转发】ES 开发工程师招聘

社区日报第690期 (2019-08-04)

社区日报第689期 (2019-08-03）

社区日报第688期 (2019-08-02)

记一次“访问量超过1000的人数”统计，计算聚合桶的个数

前言

需求

之前的做法

查询语句

查询结果

改进后的做法

查询语句

查询结果

前言

需求

之前的做法

查询语句

查询结果

改进后的做法

查询语句

查询结果

社区日报第687期 (2019-08-01)

社区日报第686期 (2019-07-31)

ES6.8权限使用配置

社区日报第685期 (2019-07-30)

社区日报第684期 (2019-07-29)

社区日报第683期 (2019-07-28)

社区日报第682期 (2019-07-27）

活动推荐

热门文章

热门话题