文章 - 搜索客，搜索人自己的社区

社区日报第164期 (2018-01-20)

几篇旧闻
1. Elasticsearch 联结查询 joining queries
http://t.cn/RQNunNP
2. Elasticsearch 中的 ignore_above
http://t.cn/RQNu1fW
3. Migration Patterns: Elasticsearch
http://t.cn/RQp8yGC

编辑：江水
归档：https://elasticsearch.cn/article/462
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

java 客户端获取 termvectors

elasticsearch的termvectors包括了term的位置、词频等信息。这些信息用于相应的数据统计或开发其他功能，本文介绍termvecters如何使用，如何通过java客户端获取termvectors相关信息。

要使用termvctor首先要配置mapping中field的"term_vector"属性，默认状态es不开启termvector，因为这样会增加索引的体积，毕竟多存了不少元数据。

PUT test
{
  "mappings": {
    "qa_test": {
      "dynamic": "strict",
      "_all": {
        "enabled": false
      },
      "properties": {
        "question": {
          "properties": {
            "cate": {
              "type": "keyword"
            },
            "desc": {
              "type": "text",
              "store": true,
              "term_vector": "with_positions_offsets_payloads",
              "analyzer": "ik_smart"
            },
            "time": {
              "type": "date",
              "store": true,
              "format": "strict_date_optional_time||epoch_millis||yyyy-MM-dd HH:mm:ss"
            },
            "title": {
              "type": "text",
              "store": true,
              "term_vector": "with_positions_offsets_payloads",
              "analyzer": "ik_smart"
            }
          }
        },
        "updatetime": {
          "type": "date",
          "store": true,
          "format": "strict_date_optional_time||epoch_millis||yyyy-MM-dd HH:mm:ss"
        }
      }
    }
  },
  "settings": {
    "index": {
      "number_of_shards": "1",
      "requests": {
        "cache": {
          "enable": "true"
        }
      },
      "number_of_replicas": "1"
    }
  }
}

注意示例中的"title"的"term_vector"属性。

接下来为索引创建一条数据

PUT qa_test_02/qa_test/1
{
  "question": {
    "cate": [
      "装修流程",
      "其它"
    ],
    "desc": "筒灯，大洋和索正这两个牌子，哪个好？希望内行的朋友告知一下，谢谢！",
    "time": "2016-07-02 19:59:00",
    "title": "筒灯大洋和索正这两个牌子哪个好"
  },
  "updatetime": 1467503940000
}

下面我们看看这条数据上question.title字段的termvector信息

GET qa_test_02/qa_test/1/_termvectors
{
  "fields": [
    "question.title"
  ],
  "offsets": true,
  "payloads": true,
  "positions": true,
  "term_statistics": true,
  "field_statistics": true
}

结果大概这个样子

{
  "_index": "qa_test_02",
  "_type": "qa_test",
  "_id": "1",
  "_version": 1,
  "found": true,
  "took": 0,
  "term_vectors": {
    "question.title": {
      "field_statistics": {
        "sum_doc_freq": 9,
        "doc_count": 1,
        "sum_ttf": 9
      },
      "terms": {
        "和": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 2,
              "start_offset": 4,
              "end_offset": 5
            }
          ]
        },
        "哪个": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 7,
              "start_offset": 12,
              "end_offset": 14
            }
          ]
        },
        "大洋": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 1,
              "start_offset": 2,
              "end_offset": 4
            }
          ]
        },
        "好": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 8,
              "start_offset": 14,
              "end_offset": 15
            }
          ]
        },
        "正": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 4,
              "start_offset": 6,
              "end_offset": 7
            }
          ]
        },
        "牌子": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 6,
              "start_offset": 10,
              "end_offset": 12
            }
          ]
        },
        "筒灯": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 0,
              "start_offset": 0,
              "end_offset": 2
            }
          ]
        },
        "索": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 3,
              "start_offset": 5,
              "end_offset": 6
            }
          ]
        },
        "这两个": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 5,
              "start_offset": 7,
              "end_offset": 10
            }
          ]
        }
      }
    }
  }
}

下面我们说说如何通过java代码实现termvector的获取，不说废话直接上代码

            TermVectorsResponse     termVectorResponse = client.prepareTermVectors().setIndex(sourceindexname).setType(sourceindextype)
                        .setId(id).setSelectedFields(fieldname).setTermStatistics(true).execute()
                        .actionGet();
                XContentBuilder builder = XContentFactory.contentBuilder(XContentType.JSON);
                termVectorResponse.toXContent(builder, null);
                System.out.println(builder.string());
                Fields fields = termVectorResponse.getFields();
                Iterator<String> iterator = fields.iterator();
                while (iterator.hasNext()) {
                    String field = iterator.next();
                    Terms terms = fields.terms(field);
                    TermsEnum termsEnum = terms.iterator();
                    while (termsEnum.next() != null) {
                        BytesRef term = termsEnum.term();
                        if (term != null) {
                            System.out.println(term.utf8ToString() + termsEnum.totalTermFreq());
                        }
                    }
                }

获取TermVectorsResponse的代码很好理解，主要是设置索引名称、索引type、索引id以及需要展示的若干属性。

接下来是如何获取某一term的termvector，有两种方案第一种是通过TermVectorsResponse的toXContent方法直接生成XContentBuilder，这种方法可以直接获取和上面通过DSL查询一样的json结果；第二种是通过Fields的iterator遍历fields，获取TermsEnum，熟悉lucene的同学应会更熟悉第二种方法。

继续阅读 »

elasticsearch的termvectors包括了term的位置、词频等信息。这些信息用于相应的数据统计或开发其他功能，本文介绍termvecters如何使用，如何通过java客户端获取termvectors相关信息。

要使用termvctor首先要配置mapping中field的"term_vector"属性，默认状态es不开启termvector，因为这样会增加索引的体积，毕竟多存了不少元数据。

PUT test
{
  "mappings": {
    "qa_test": {
      "dynamic": "strict",
      "_all": {
        "enabled": false
      },
      "properties": {
        "question": {
          "properties": {
            "cate": {
              "type": "keyword"
            },
            "desc": {
              "type": "text",
              "store": true,
              "term_vector": "with_positions_offsets_payloads",
              "analyzer": "ik_smart"
            },
            "time": {
              "type": "date",
              "store": true,
              "format": "strict_date_optional_time||epoch_millis||yyyy-MM-dd HH:mm:ss"
            },
            "title": {
              "type": "text",
              "store": true,
              "term_vector": "with_positions_offsets_payloads",
              "analyzer": "ik_smart"
            }
          }
        },
        "updatetime": {
          "type": "date",
          "store": true,
          "format": "strict_date_optional_time||epoch_millis||yyyy-MM-dd HH:mm:ss"
        }
      }
    }
  },
  "settings": {
    "index": {
      "number_of_shards": "1",
      "requests": {
        "cache": {
          "enable": "true"
        }
      },
      "number_of_replicas": "1"
    }
  }
}

注意示例中的"title"的"term_vector"属性。

接下来为索引创建一条数据

PUT qa_test_02/qa_test/1
{
  "question": {
    "cate": [
      "装修流程",
      "其它"
    ],
    "desc": "筒灯，大洋和索正这两个牌子，哪个好？希望内行的朋友告知一下，谢谢！",
    "time": "2016-07-02 19:59:00",
    "title": "筒灯大洋和索正这两个牌子哪个好"
  },
  "updatetime": 1467503940000
}

下面我们看看这条数据上question.title字段的termvector信息

GET qa_test_02/qa_test/1/_termvectors
{
  "fields": [
    "question.title"
  ],
  "offsets": true,
  "payloads": true,
  "positions": true,
  "term_statistics": true,
  "field_statistics": true
}

结果大概这个样子

{
  "_index": "qa_test_02",
  "_type": "qa_test",
  "_id": "1",
  "_version": 1,
  "found": true,
  "took": 0,
  "term_vectors": {
    "question.title": {
      "field_statistics": {
        "sum_doc_freq": 9,
        "doc_count": 1,
        "sum_ttf": 9
      },
      "terms": {
        "和": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 2,
              "start_offset": 4,
              "end_offset": 5
            }
          ]
        },
        "哪个": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 7,
              "start_offset": 12,
              "end_offset": 14
            }
          ]
        },
        "大洋": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 1,
              "start_offset": 2,
              "end_offset": 4
            }
          ]
        },
        "好": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 8,
              "start_offset": 14,
              "end_offset": 15
            }
          ]
        },
        "正": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 4,
              "start_offset": 6,
              "end_offset": 7
            }
          ]
        },
        "牌子": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 6,
              "start_offset": 10,
              "end_offset": 12
            }
          ]
        },
        "筒灯": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 0,
              "start_offset": 0,
              "end_offset": 2
            }
          ]
        },
        "索": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 3,
              "start_offset": 5,
              "end_offset": 6
            }
          ]
        },
        "这两个": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 5,
              "start_offset": 7,
              "end_offset": 10
            }
          ]
        }
      }
    }
  }
}

下面我们说说如何通过java代码实现termvector的获取，不说废话直接上代码

            TermVectorsResponse     termVectorResponse = client.prepareTermVectors().setIndex(sourceindexname).setType(sourceindextype)
                        .setId(id).setSelectedFields(fieldname).setTermStatistics(true).execute()
                        .actionGet();
                XContentBuilder builder = XContentFactory.contentBuilder(XContentType.JSON);
                termVectorResponse.toXContent(builder, null);
                System.out.println(builder.string());
                Fields fields = termVectorResponse.getFields();
                Iterator<String> iterator = fields.iterator();
                while (iterator.hasNext()) {
                    String field = iterator.next();
                    Terms terms = fields.terms(field);
                    TermsEnum termsEnum = terms.iterator();
                    while (termsEnum.next() != null) {
                        BytesRef term = termsEnum.term();
                        if (term != null) {
                            System.out.println(term.utf8ToString() + termsEnum.totalTermFreq());
                        }
                    }
                }

获取TermVectorsResponse的代码很好理解，主要是设置索引名称、索引type、索引id以及需要展示的若干属性。

接下来是如何获取某一term的termvector，有两种方案第一种是通过TermVectorsResponse的toXContent方法直接生成XContentBuilder，这种方法可以直接获取和上面通过DSL查询一样的json结果；第二种是通过Fields的iterator遍历fields，获取TermsEnum，熟悉lucene的同学应会更熟悉第二种方法。

收起阅读 »

社区日报第163期 (2018-01-19)

1、ElasticSearch集群迁移和升级总结
http://t.cn/RQoQv2k
2、年后跳一跳|ES面试基础知识要点
http://t.cn/RQoHTLU
3、ES实践总结
http://t.cn/RHHczic

编辑：铭毅天下
归档：https://elasticsearch.cn/article/460
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

社区日报第162期 (2018-01-18)

1.ElasticSearch 5.6源码解析HTTP/TCP请求
http://t.cn/RQSwjeQ
2.elasticsearch的慢日志
http://t.cn/RQSwH4X
3.Zabbix3.4.5:历史数据支持Elasticsearch
http://t.cn/RQSw86k

编辑：金桥
归档：https://elasticsearch.cn/article/459
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

社区日报第161期 (2018-01-17)

1. Kafka 同步数据到 Elasticsearch
http://t.cn/RHfAzdh
2. 5种 Logstash 替代者对比
http://t.cn/RQiwTSZ
3. Elasticsearch Tutorial & Getting Started（YouTuBe）
http://t.cn/RQiZ8jc

编辑：江水
归档：https://elasticsearch.cn/article/458
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

1.使用ELK监控Puppet服务器。
http://t.cn/RQfQf6L
2.TableStore+Elasticsearch，海量图书信息全文检索系统实践。
http://t.cn/RYvNMD3
3.社区好文，wood叔原创，ElasticSearch集群故障案例分析之警惕通配符查询。
https://elasticsearch.cn/article/171

编辑：叮咚光军
归档：https://elasticsearch.cn/article/456
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

社区日报第159期 (2018-01-15)

1.kibana 6 三个让人喜爱的新特性。
http://t.cn/RQcxAWA

2.使用XPACK来完成基于属性的权限控制。
http://t.cn/RQcJD9h

3.Beats 6.1 新特性。
http://t.cn/RQc65os

编辑：cyberdak
归档：https://elasticsearch.cn/article/455
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

社区日报第158期 (2018-01-14)

如何使用Elasticsearch下载字段的所有独特术语。 http://t.cn/RQGh4wl
如何在Elasticsearch中找到相似的术语。 http://t.cn/RQGz6Pt
(自备梯子)想成为一名数据科学家？尝试费曼技术。 http://t.cn/RQGwPhu

继续阅读 »

社区日报第157期 (2018-01-13)

ES6.1新特性：利用机器学习进行按需预测 http://t.cn/RQ4GZll
利用ES为推荐的产品定制评分（需翻墙） http://t.cn/RQ45Wva
一周热点：冲顶大会等答题类游戏的辅助决策开源代码，各位道友可以试试 http://t.cn/RQAxiCr

继续阅读 »

社区日报第156期 (2018-01-12)

1、 Elasticsearch java原生打分插件开发
https://elasticsearch.cn/article/450
2、Elasticsearch query 解析器（梯子）
http://t.cn/RQLzKJo
3、图解Elasticsearch基础属性
http://t.cn/RQLhVzS

编辑：铭毅天下
归档：https://elasticsearch.cn/article/452
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

社区日报第155期 (2018-01-11)

1.小米的Elasticsearch 服务化实践
http://t.cn/RQZjbhL
2.wood出品：number?keyword?傻傻分不清楚
https://elasticsearch.cn/article/446
3.ebay的elasticsearch性能调优实践
http://t.cn/RQhzDiP

编辑：金桥
归档：https://elasticsearch.cn/article/451
订阅： https://tinyletter.com/elastic-daily

继续阅读 »

elasticsearch java原生打分插件开发

能有影响elasticsearch score的方法有很多，官方推荐的是使用内置的painless脚本语言结合function_score来重新定义score。由于本人开发的项目其算法是由java语言开发的，于是决定尝试原生脚本开发。 elasticsearch脚本由plugin-descriptor.properties文件以及运行jar包组成，plugin-descriptor.properties主要用来定义版本信息、对应es的版本信息等属性。

官方的例子

public class ExpertScriptPlugin extends Plugin implements ScriptPlugin {
    @Override
    public ScriptEngineService getScriptEngineService(Settings settings) {
        return new MyExpertScriptEngine();
    }
    /** An example {@link ScriptEngineService} that uses Lucene segment details to implement pure document frequency scoring. */
    // tag::expert_engine
    private static class MyExpertScriptEngine implements ScriptEngineService {
        @Override
        public String getType() {
            return "expert_scripts";
        }
        @Override
        public Function<Map<String,Object>,SearchScript> compile(String scriptName, String scriptSource, Map<String, String> params) {
            // we use the script "source" as the script identifier
            if ("pure_df".equals(scriptSource)) {
                return p -> new SearchScript() {
                    final String field;
                    final String term;
                    {
                        if (p.containsKey("field") == false) {
                            throw new IllegalArgumentException("Missing parameter [field]");
                        }
                        if (p.containsKey("term") == false) {
                            throw new IllegalArgumentException("Missing parameter [term]");
                        }
                        field = p.get("field").toString();
                        term = p.get("term").toString();
                    }
                    @Override
                    public LeafSearchScript getLeafSearchScript(LeafReaderContext context) throws IOException {
                        PostingsEnum postings = context.reader().postings(new Term(field, term));
                        if (postings == null) {
                            // the field and/or term don't exist in this segment, so always return 0
                            return () -> 0.0d;
                        }
                        return new LeafSearchScript() {
                            int currentDocid = -1;
                            @Override
                            public void setDocument(int docid) {
                                // advance has undefined behavior calling with a docid <= its current docid
                                if (postings.docID() < docid) {
                                    try {
                                        postings.advance(docid);
                                    } catch (IOException e) {
                                        throw new UncheckedIOException(e);
                                    }
                                }
                                currentDocid = docid;
                            }
                            @Override
                            public double runAsDouble() {
                                if (postings.docID() != currentDocid) {
                                    // advance moved past the current doc, so this doc has no occurrences of the term
                                    return 0.0d;
                                }
                                try {
                                    return postings.freq();
                                } catch (IOException e) {
                                    throw new UncheckedIOException(e);
                                }
                            }
                        };
                    }
                    @Override
                    public boolean needsScores() {
                        return false;
                    }
                };
            }
            throw new IllegalArgumentException("Unknown script name " + scriptSource);
        }

        @Override
        @SuppressWarnings("unchecked")
        public SearchScript search(CompiledScript compiledScript, SearchLookup lookup, @Nullable Map<String, Object> params) {
          Function<Map<String,Object>,SearchScript> scriptFactory = (Function<Map<String,Object>,SearchScript>) compiledScript.compiled();
          return scriptFactory.apply(params);
        }

        @Override
        public ExecutableScript executable(CompiledScript compiledScript, @Nullable Map<String, Object> params) {
            throw new UnsupportedOperationException();
        }

        @Override
        public boolean isInlineScriptEnabled() {
            return true;
        }

        @Override
        public void close() {}
    }
}

代码解读：本例在elasticsearch源码中，https://github.com/elastic/elasticsearch/tree/master/plugins/examples/script-expert-scoring

MyExpertScriptEngine类是其中最重要的类，用于实现脚本参数定义，编译，以及打分机制的实现。其中compile方法返回我们定义好打分逻辑的java function。search方法用于我们在搜索过程中实施定义好的打分逻辑。怎奈笔者对于函数式编程知道的不多（后续需要补课），其实评分逻辑也可以在search方法中实现，于是有了下面的一段代码。

public class fieldaddScriptPlugin extends Plugin implements ScriptPlugin {
    @Override
    public ScriptEngineService getScriptEngineService(Settings settings) {
        return new MyExpertScriptEngine();
    }
    private static class MyExpertScriptEngine implements ScriptEngineService {
        @Override
        public String getType() {
            return "expert_scripts";
        }

        @Override
        public Object compile(String scriptName, String scriptSource, Map<String, String> params) {
            if ("example_add".equals(scriptSource)) {
                return scriptSource;
            }
            throw new IllegalArgumentException("Unknown script name " + scriptSource);
        }

        @Override
        @SuppressWarnings("unchecked")
        public SearchScript search(CompiledScript compiledScript, SearchLookup lookup, @Nullable Map<String, Object> vars) {

            /**
             * 校验输入参数，DSL中params 参数列表
             */
            final long inc;
            final String fieldname;
            if (vars == null || vars.containsKey("inc") == false) {
                inc = 0;
            } else {
                inc = ((Number) vars.get("inc")).longValue();
            }

            if (vars == null || vars.containsKey("fieldname") == false) {
                throw new IllegalArgumentException("Missing parameter [fieldname]");
            } else {
                fieldname = (String) vars.get("fieldname");
            }

            return new SearchScript() {
                @Override
                public LeafSearchScript getLeafSearchScript(LeafReaderContext context) throws IOException {
                    final LeafSearchLookup leafLookup = lookup.getLeafSearchLookup(context);

                    return new LeafSearchScript() {
                        @Override
                        public void setDocument(int doc) {
                            if (leafLookup != null) {
                                leafLookup.setDocument(doc);
                            }
                        }

                        @Override
                        public double runAsDouble() {
                            long values = 0;
                            /**
                             * 获取document中字段内容
                             */
                            for (Object v : (List<?>) leafLookup.doc().get(fieldname)) {
                                values = ((Number) v).longValue() + values;
                            }
                            return values + inc;
                        }
                    };
                }

                @Override
                public boolean needsScores() {
                    return false;
                }
            };
        }

     这段代码的逻辑是把给定的字段(字段类型long)的每个元素相加后再加上给定的增量参数最后形成score分值。为了实现上述逻辑需要实现参数获取、根据给定的字段名获取内容列表量的关键件。下面结合代码说说这两个步骤如何实现的。

search方法中Map<String, Object> vars参数对应DSL中"params"参数，用于接受实际给定的运行时参数。SearchLookup lookup参数由系统传入，通过lookup.getLeafSearchLookup(context)获取LeafSearchLookup通过该对象可以获取给定字段的值。

对于elasticsearch 2.x以前的版本可以通过NativeScriptFactory实现原生脚本。

public class MyNativeScriptPlugin extends Plugin implements ScriptPlugin {
    private final static Logger LOGGER = LogManager.getLogger(MyFirstPlugin.class);

    public MyNativeScriptPlugin() {
        super();
        LOGGER.warn("This is MyNativeScriptPlugin");
    }

    @Override
    public List<NativeScriptFactory> getNativeScripts() {
        return Collections.singletonList(new MyNativeScriptFactory());
    }

    public static class MyNativeScriptFactory implements NativeScriptFactory {
        @Override
        public ExecutableScript newScript(@Nullable Map<String, Object> params) {

//            return new MyNativeScript();
            return new AbstractDoubleSearchScript(){

                @Override
                public double runAsDouble() {
                    int b=0;
                    if(params.get("add")!=null){
                        b= (int) params.get("add");
                    }

                    String s =  source().get("last").toString();
                    double a = s.length()+b;
                    return a;                }
            };
        }

        @Override
        public boolean needsScores() {
            return false;
        }

        @Override
        public String getName() {
            return "my_script";
        }
    }
}

工程组织 elasticsearch工程使用gradle进行依赖管理和生命周期管理，为此es项目自己也开发了esplugin的gradle插件，但不兼容gradle4.2以上的版本。参考github中的成熟插件，使用maven组织工程。

主要涉及两个文件 pom.xml plugin.xml 工程利用maven-assembly-plugin打包jar。

本例github地址：https://github.com/jiashiwen/elasticsearchpluginsample 欢迎点赞或拍砖

继续阅读 »

能有影响elasticsearch score的方法有很多，官方推荐的是使用内置的painless脚本语言结合function_score来重新定义score。由于本人开发的项目其算法是由java语言开发的，于是决定尝试原生脚本开发。 elasticsearch脚本由plugin-descriptor.properties文件以及运行jar包组成，plugin-descriptor.properties主要用来定义版本信息、对应es的版本信息等属性。

官方的例子

public class ExpertScriptPlugin extends Plugin implements ScriptPlugin {
    @Override
    public ScriptEngineService getScriptEngineService(Settings settings) {
        return new MyExpertScriptEngine();
    }
    /** An example {@link ScriptEngineService} that uses Lucene segment details to implement pure document frequency scoring. */
    // tag::expert_engine
    private static class MyExpertScriptEngine implements ScriptEngineService {
        @Override
        public String getType() {
            return "expert_scripts";
        }
        @Override
        public Function<Map<String,Object>,SearchScript> compile(String scriptName, String scriptSource, Map<String, String> params) {
            // we use the script "source" as the script identifier
            if ("pure_df".equals(scriptSource)) {
                return p -> new SearchScript() {
                    final String field;
                    final String term;
                    {
                        if (p.containsKey("field") == false) {
                            throw new IllegalArgumentException("Missing parameter [field]");
                        }
                        if (p.containsKey("term") == false) {
                            throw new IllegalArgumentException("Missing parameter [term]");
                        }
                        field = p.get("field").toString();
                        term = p.get("term").toString();
                    }
                    @Override
                    public LeafSearchScript getLeafSearchScript(LeafReaderContext context) throws IOException {
                        PostingsEnum postings = context.reader().postings(new Term(field, term));
                        if (postings == null) {
                            // the field and/or term don't exist in this segment, so always return 0
                            return () -> 0.0d;
                        }
                        return new LeafSearchScript() {
                            int currentDocid = -1;
                            @Override
                            public void setDocument(int docid) {
                                // advance has undefined behavior calling with a docid <= its current docid
                                if (postings.docID() < docid) {
                                    try {
                                        postings.advance(docid);
                                    } catch (IOException e) {
                                        throw new UncheckedIOException(e);
                                    }
                                }
                                currentDocid = docid;
                            }
                            @Override
                            public double runAsDouble() {
                                if (postings.docID() != currentDocid) {
                                    // advance moved past the current doc, so this doc has no occurrences of the term
                                    return 0.0d;
                                }
                                try {
                                    return postings.freq();
                                } catch (IOException e) {
                                    throw new UncheckedIOException(e);
                                }
                            }
                        };
                    }
                    @Override
                    public boolean needsScores() {
                        return false;
                    }
                };
            }
            throw new IllegalArgumentException("Unknown script name " + scriptSource);
        }

        @Override
        @SuppressWarnings("unchecked")
        public SearchScript search(CompiledScript compiledScript, SearchLookup lookup, @Nullable Map<String, Object> params) {
          Function<Map<String,Object>,SearchScript> scriptFactory = (Function<Map<String,Object>,SearchScript>) compiledScript.compiled();
          return scriptFactory.apply(params);
        }

        @Override
        public ExecutableScript executable(CompiledScript compiledScript, @Nullable Map<String, Object> params) {
            throw new UnsupportedOperationException();
        }

        @Override
        public boolean isInlineScriptEnabled() {
            return true;
        }

        @Override
        public void close() {}
    }
}

代码解读：本例在elasticsearch源码中，https://github.com/elastic/elasticsearch/tree/master/plugins/examples/script-expert-scoring

MyExpertScriptEngine类是其中最重要的类，用于实现脚本参数定义，编译，以及打分机制的实现。其中compile方法返回我们定义好打分逻辑的java function。search方法用于我们在搜索过程中实施定义好的打分逻辑。怎奈笔者对于函数式编程知道的不多（后续需要补课），其实评分逻辑也可以在search方法中实现，于是有了下面的一段代码。

public class fieldaddScriptPlugin extends Plugin implements ScriptPlugin {
    @Override
    public ScriptEngineService getScriptEngineService(Settings settings) {
        return new MyExpertScriptEngine();
    }
    private static class MyExpertScriptEngine implements ScriptEngineService {
        @Override
        public String getType() {
            return "expert_scripts";
        }

        @Override
        public Object compile(String scriptName, String scriptSource, Map<String, String> params) {
            if ("example_add".equals(scriptSource)) {
                return scriptSource;
            }
            throw new IllegalArgumentException("Unknown script name " + scriptSource);
        }

        @Override
        @SuppressWarnings("unchecked")
        public SearchScript search(CompiledScript compiledScript, SearchLookup lookup, @Nullable Map<String, Object> vars) {

            /**
             * 校验输入参数，DSL中params 参数列表
             */
            final long inc;
            final String fieldname;
            if (vars == null || vars.containsKey("inc") == false) {
                inc = 0;
            } else {
                inc = ((Number) vars.get("inc")).longValue();
            }

            if (vars == null || vars.containsKey("fieldname") == false) {
                throw new IllegalArgumentException("Missing parameter [fieldname]");
            } else {
                fieldname = (String) vars.get("fieldname");
            }

            return new SearchScript() {
                @Override
                public LeafSearchScript getLeafSearchScript(LeafReaderContext context) throws IOException {
                    final LeafSearchLookup leafLookup = lookup.getLeafSearchLookup(context);

                    return new LeafSearchScript() {
                        @Override
                        public void setDocument(int doc) {
                            if (leafLookup != null) {
                                leafLookup.setDocument(doc);
                            }
                        }

                        @Override
                        public double runAsDouble() {
                            long values = 0;
                            /**
                             * 获取document中字段内容
                             */
                            for (Object v : (List<?>) leafLookup.doc().get(fieldname)) {
                                values = ((Number) v).longValue() + values;
                            }
                            return values + inc;
                        }
                    };
                }

                @Override
                public boolean needsScores() {
                    return false;
                }
            };
        }

     这段代码的逻辑是把给定的字段(字段类型long)的每个元素相加后再加上给定的增量参数最后形成score分值。为了实现上述逻辑需要实现参数获取、根据给定的字段名获取内容列表量的关键件。下面结合代码说说这两个步骤如何实现的。

search方法中Map<String, Object> vars参数对应DSL中"params"参数，用于接受实际给定的运行时参数。SearchLookup lookup参数由系统传入，通过lookup.getLeafSearchLookup(context)获取LeafSearchLookup通过该对象可以获取给定字段的值。

对于elasticsearch 2.x以前的版本可以通过NativeScriptFactory实现原生脚本。

public class MyNativeScriptPlugin extends Plugin implements ScriptPlugin {
    private final static Logger LOGGER = LogManager.getLogger(MyFirstPlugin.class);

    public MyNativeScriptPlugin() {
        super();
        LOGGER.warn("This is MyNativeScriptPlugin");
    }

    @Override
    public List<NativeScriptFactory> getNativeScripts() {
        return Collections.singletonList(new MyNativeScriptFactory());
    }

    public static class MyNativeScriptFactory implements NativeScriptFactory {
        @Override
        public ExecutableScript newScript(@Nullable Map<String, Object> params) {

//            return new MyNativeScript();
            return new AbstractDoubleSearchScript(){

                @Override
                public double runAsDouble() {
                    int b=0;
                    if(params.get("add")!=null){
                        b= (int) params.get("add");
                    }

                    String s =  source().get("last").toString();
                    double a = s.length()+b;
                    return a;                }
            };
        }

        @Override
        public boolean needsScores() {
            return false;
        }

        @Override
        public String getName() {
            return "my_script";
        }
    }
}

工程组织 elasticsearch工程使用gradle进行依赖管理和生命周期管理，为此es项目自己也开发了esplugin的gradle插件，但不兼容gradle4.2以上的版本。参考github中的成熟插件，使用maven组织工程。

主要涉及两个文件 pom.xml plugin.xml 工程利用maven-assembly-plugin打包jar。

本例github地址：https://github.com/jiashiwen/elasticsearchpluginsample 欢迎点赞或拍砖

收起阅读 »

【阿里云 Meetup】如何使用Elasticsearch进行智能运维

活动介绍

本期邀请了几位ES大咖做主题分享，并以Demo show和Workshop的形式介绍Elastisearch及其相关组件在搜索、日志分析和监控领域的应用，帮助用户更好的理解Elastisearch及其相关组件，在更多的搜索和分析场景中应用。Workshop环节请务必携带个人电脑参加。

活动安排

时间：2018年1月20日周六 13：30-17：00

地点：北京市海淀区中关村大街46号院-众海加速器（阿里巴巴创新中心）

活动主题

13:30—14:00 签到
14:00—14:30 主题分享《Elasticsearch在智能运维领域的应用》 Elastic布道师曾勇
14:30—14:40 Q&A
14:40—15:10 Demo show《使用X-Pack和Kibana实现Elasticsearch 的监控与报警》阿里云技术专家李靖威
15:10—15:20 Q&A
15:20—15:50 Workshop《基于阿里云Elasticsearch构建网站日志处理系统》阿里云产品专家洪阳
15:50—16:00 Q&A
16:00—16:30 主题分享《ELK在运维工作中应用两三事》上海安畅运维专家韩军辉
16:30—17:00 现场快闪分享
17:00—17:30 现场专家一对一交流

报名通道

活动报名通道：

https://yq.aliyun.com/event/193/join

可提前报名现场快闪分享(5分钟/位），讲讲自己的ELK实践心得，报名链接：

https://survey.aliyun.com/survey/kMXx0zCfB

也可使用钉钉扫描，加入Elasticsearch技术交流群：

嘉宾介绍

曾勇 Elastic布道师

Elastic开发工程师与布道师，在分布式搜索、高性能、高可用架构、自动化运维等方面积累了超过七年的经验。曾勇是Elasticsearch国内首批用户，自2010年起就开始接触Elasticsearch并投入到生产环境中使用，并编写过一系列的中文处理相关的插件。

演讲主题：《Elasticsearch在智能运维领域的应用》

分享Elasticsearch和X-Pack组件在智能运维领域的技术原理和应用实践，如非监督型机器学习在自动的异常检测、高级关联和分类、根源问题诊断、早期故障预测等方面的应用等。

李靖威阿里云技术专家

全栈程序员，精通前后端，在Web微服务系统架构上有深入研究。3年搜索产品相关经验，现负责阿里云Elasticsearch的产品业务部分的开发。

演讲主题：《使用X-Pack和Kibana实现Elasticsearch 的监控与报警》

以开源 Elasticsearch、阿里云 Elasticsearch和X-Pack的Demo show的形式，对 Elasticsearch 集群监控和报警的内部原理进行讲解和使用方法演示。

洪阳阿里云产品专家

阿里云搜索产品经理，从事多年大数据及搜索相关产品工作，在离线数据加工、离线调度系统、在线搜索等场景深入研究，对大数据和搜索相关产品有丰富的经验。

演讲主题：《基于阿里云Elasticsearch构建网站日志处理系统》

基于阿里云的Elasticsearch，离线数仓加工工具，数据同步工具等一些列产品来快速构建一个日志处理系统，从离线数据加工到在线数据搜索和分析展现诠释数据加工在阿里云产品上如何快速展开。

韩军辉上海安畅运维专家

上海安畅网络运维主管，热衷于开源技术的学习和深入研究，从事多年的ELK运维相关工作，对ELK Stack有深入研究，对ELK相关运维有丰富的经验。

演讲主题：《ELK在运维工作中应用两三事》

基于ELK Stack、sflow技术、sflowtool工具、kafka消息队列等开源技术构建一套流量分析、DDOS告警系统。从流量收集、分析、存储、展现、告警一套流程来诠释ELK在流量分析中的应用。

继续阅读 »

活动介绍

本期邀请了几位ES大咖做主题分享，并以Demo show和Workshop的形式介绍Elastisearch及其相关组件在搜索、日志分析和监控领域的应用，帮助用户更好的理解Elastisearch及其相关组件，在更多的搜索和分析场景中应用。Workshop环节请务必携带个人电脑参加。

活动安排

时间：2018年1月20日周六 13：30-17：00

地点：北京市海淀区中关村大街46号院-众海加速器（阿里巴巴创新中心）

活动主题

13:30—14:00 签到
14:00—14:30 主题分享《Elasticsearch在智能运维领域的应用》 Elastic布道师曾勇
14:30—14:40 Q&A
14:40—15:10 Demo show《使用X-Pack和Kibana实现Elasticsearch 的监控与报警》阿里云技术专家李靖威
15:10—15:20 Q&A
15:20—15:50 Workshop《基于阿里云Elasticsearch构建网站日志处理系统》阿里云产品专家洪阳
15:50—16:00 Q&A
16:00—16:30 主题分享《ELK在运维工作中应用两三事》上海安畅运维专家韩军辉
16:30—17:00 现场快闪分享
17:00—17:30 现场专家一对一交流

报名通道

活动报名通道：

https://yq.aliyun.com/event/193/join

可提前报名现场快闪分享(5分钟/位），讲讲自己的ELK实践心得，报名链接：

https://survey.aliyun.com/survey/kMXx0zCfB

也可使用钉钉扫描，加入Elasticsearch技术交流群：

嘉宾介绍

曾勇 Elastic布道师

Elastic开发工程师与布道师，在分布式搜索、高性能、高可用架构、自动化运维等方面积累了超过七年的经验。曾勇是Elasticsearch国内首批用户，自2010年起就开始接触Elasticsearch并投入到生产环境中使用，并编写过一系列的中文处理相关的插件。

演讲主题：《Elasticsearch在智能运维领域的应用》

分享Elasticsearch和X-Pack组件在智能运维领域的技术原理和应用实践，如非监督型机器学习在自动的异常检测、高级关联和分类、根源问题诊断、早期故障预测等方面的应用等。

李靖威阿里云技术专家

全栈程序员，精通前后端，在Web微服务系统架构上有深入研究。3年搜索产品相关经验，现负责阿里云Elasticsearch的产品业务部分的开发。

演讲主题：《使用X-Pack和Kibana实现Elasticsearch 的监控与报警》

以开源 Elasticsearch、阿里云 Elasticsearch和X-Pack的Demo show的形式，对 Elasticsearch 集群监控和报警的内部原理进行讲解和使用方法演示。

洪阳阿里云产品专家

阿里云搜索产品经理，从事多年大数据及搜索相关产品工作，在离线数据加工、离线调度系统、在线搜索等场景深入研究，对大数据和搜索相关产品有丰富的经验。

演讲主题：《基于阿里云Elasticsearch构建网站日志处理系统》

基于阿里云的Elasticsearch，离线数仓加工工具，数据同步工具等一些列产品来快速构建一个日志处理系统，从离线数据加工到在线数据搜索和分析展现诠释数据加工在阿里云产品上如何快速展开。

韩军辉上海安畅运维专家

上海安畅网络运维主管，热衷于开源技术的学习和深入研究，从事多年的ELK运维相关工作，对ELK Stack有深入研究，对ELK相关运维有丰富的经验。

演讲主题：《ELK在运维工作中应用两三事》

基于ELK Stack、sflow技术、sflowtool工具、kafka消息队列等开源技术构建一套流量分析、DDOS告警系统。从流量收集、分析、存储、展现、告警一套流程来诠释ELK在流量分析中的应用。

收起阅读 »

社区日报第154期 (2018-01-10)

1. Spring Boot + Elasticsearch 系列
http://t.cn/RQhaa0f
http://t.cn/RQhau76
http://t.cn/RQhaDyv
2. 手把手教你写 Logstash 插件
http://t.cn/RGE6QlQ
3. ElasticSearch in action（YouTuBe）
http://t.cn/RQhSBV8

编辑：江水
归档：https://elasticsearch.cn/article/448
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

社区日报第153期 (2018-01-09)

1.使用Amazon(AWS) Comprehend自动提取元数据并索引至ES6实现快速搜索。
http://t.cn/RHDkDuq
2.使用ELK分析RunKeeper日志。
http://t.cn/RHDk1Xa
3.Spark与Elasticsearch整合案例详解。
http://t.cn/RHDs2zw

编辑：叮咚光军
归档：https://elasticsearch.cn/article/447
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

社区日报第164期 (2018-01-20)

java 客户端获取 termvectors

社区日报第163期 (2018-01-19)

社区日报第162期 (2018-01-18)

社区日报第161期 (2018-01-17)

社区日报第160期 (2018-01-16)

社区日报第159期 (2018-01-15)

社区日报第158期 (2018-01-14)

社区日报第157期 (2018-01-13)

社区日报第156期 (2018-01-12)

社区日报第155期 (2018-01-11)

elasticsearch java原生打分插件开发

【阿里云 Meetup】如何使用Elasticsearch进行智能运维

活动介绍

活动安排

时间：2018年1月20日周六 13：30-17：00

地点：北京市海淀区中关村大街46号院-众海加速器（阿里巴巴创新中心）

活动主题

报名通道

嘉宾介绍

曾勇 Elastic布道师

李靖威阿里云技术专家

洪阳阿里云产品专家

韩军辉上海安畅运维专家

活动介绍

活动安排

时间：2018年1月20日周六 13：30-17：00

地点：北京市海淀区中关村大街46号院-众海加速器（阿里巴巴创新中心）

活动主题

报名通道

嘉宾介绍

曾勇 Elastic布道师

李靖威阿里云技术专家

洪阳阿里云产品专家

韩军辉上海安畅运维专家

社区日报第154期 (2018-01-10)

社区日报第153期 (2018-01-09)

活动推荐

热门文章

热门话题

活动介绍

活动安排

时间：2018年1月20日周六 13：30-17：00

地点：北京市海淀区中关村大街46号院-众海加速器（阿里巴巴创新中心）

活动主题

报名通道

嘉宾介绍

曾勇 Elastic布道师

李靖威 阿里云技术专家

洪阳 阿里云产品专家

韩军辉 上海安畅运维专家

活动介绍

活动安排

时间：2018年1月20日周六 13：30-17：00

地点：北京市海淀区中关村大街46号院-众海加速器（阿里巴巴创新中心）

活动主题

报名通道

嘉宾介绍

曾勇 Elastic布道师

李靖威 阿里云技术专家

洪阳 阿里云产品专家

韩军辉 上海安畅运维专家

活动推荐

热门文章

热门话题

李靖威阿里云技术专家

洪阳阿里云产品专家

韩军辉上海安畅运维专家

李靖威阿里云技术专家

洪阳阿里云产品专家

韩军辉上海安畅运维专家