社区日报 第166期 (2018-01-22)
http://t.cn/RQjPCYj
2.为machine learning jobs自定义聚合查询。
http://t.cn/RQjPQdf
3.elasticsearch因为cpu漏洞所受到的性能冲击。
http://t.cn/RQjh2oD
编辑:cyberdak
归档:https://elasticsearch.cn/article/464
订阅:https://tinyletter.com/elastic-daily
http://t.cn/RQjPCYj
2.为machine learning jobs自定义聚合查询。
http://t.cn/RQjPQdf
3.elasticsearch因为cpu漏洞所受到的性能冲击。
http://t.cn/RQjh2oD
编辑:cyberdak
归档:https://elasticsearch.cn/article/464
订阅:https://tinyletter.com/elastic-daily
收起阅读 »
社区日报 第165期 (2018-01-21)
-
Elasticsearch的最佳分片管理策略。 http://t.cn/RQp1VMF
-
Elasticsearch映射:关于如何创建,编辑,删除的例子。 http://t.cn/RQObLTG
- (自备梯子)想象一个更好的互联网环境。 http://t.cn/RQO589h
-
Elasticsearch的最佳分片管理策略。 http://t.cn/RQp1VMF
-
Elasticsearch映射:关于如何创建,编辑,删除的例子。 http://t.cn/RQObLTG
- (自备梯子)想象一个更好的互联网环境。 http://t.cn/RQO589h
社区日报 第164期 (2018-01-20)
1. Elasticsearch 联结查询 joining queries
http://t.cn/RQNunNP
2. Elasticsearch 中的 ignore_above
http://t.cn/RQNu1fW
3. Migration Patterns: Elasticsearch
http://t.cn/RQp8yGC
编辑:江水
归档:https://elasticsearch.cn/article/462
订阅:https://tinyletter.com/elastic-daily
1. Elasticsearch 联结查询 joining queries
http://t.cn/RQNunNP
2. Elasticsearch 中的 ignore_above
http://t.cn/RQNu1fW
3. Migration Patterns: Elasticsearch
http://t.cn/RQp8yGC
编辑:江水
归档:https://elasticsearch.cn/article/462
订阅:https://tinyletter.com/elastic-daily
收起阅读 »
java 客户端 获取 termvectors
elasticsearch的termvectors包括了term的位置、词频等信息。这些信息用于相应的数据统计或开发其他功能,本文介绍termvecters如何使用,如何通过java客户端获取termvectors相关信息。
要使用termvctor首先要配置mapping中field的"term_vector"属性,默认状态es不开启termvector,因为这样会增加索引的体积,毕竟多存了不少元数据。
PUT test
{
"mappings": {
"qa_test": {
"dynamic": "strict",
"_all": {
"enabled": false
},
"properties": {
"question": {
"properties": {
"cate": {
"type": "keyword"
},
"desc": {
"type": "text",
"store": true,
"term_vector": "with_positions_offsets_payloads",
"analyzer": "ik_smart"
},
"time": {
"type": "date",
"store": true,
"format": "strict_date_optional_time||epoch_millis||yyyy-MM-dd HH:mm:ss"
},
"title": {
"type": "text",
"store": true,
"term_vector": "with_positions_offsets_payloads",
"analyzer": "ik_smart"
}
}
},
"updatetime": {
"type": "date",
"store": true,
"format": "strict_date_optional_time||epoch_millis||yyyy-MM-dd HH:mm:ss"
}
}
}
},
"settings": {
"index": {
"number_of_shards": "1",
"requests": {
"cache": {
"enable": "true"
}
},
"number_of_replicas": "1"
}
}
}
注意示例中的"title"的"term_vector"属性。
接下来为索引创建一条数据
PUT qa_test_02/qa_test/1
{
"question": {
"cate": [
"装修流程",
"其它"
],
"desc": "筒灯,大洋和索正这两个牌子,哪个好?希望内行的朋友告知一下,谢谢!",
"time": "2016-07-02 19:59:00",
"title": "筒灯大洋和索正这两个牌子哪个好"
},
"updatetime": 1467503940000
}
下面我们看看这条数据上question.title字段的termvector信息
GET qa_test_02/qa_test/1/_termvectors
{
"fields": [
"question.title"
],
"offsets": true,
"payloads": true,
"positions": true,
"term_statistics": true,
"field_statistics": true
}
结果大概这个样子
{
"_index": "qa_test_02",
"_type": "qa_test",
"_id": "1",
"_version": 1,
"found": true,
"took": 0,
"term_vectors": {
"question.title": {
"field_statistics": {
"sum_doc_freq": 9,
"doc_count": 1,
"sum_ttf": 9
},
"terms": {
"和": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 2,
"start_offset": 4,
"end_offset": 5
}
]
},
"哪个": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 7,
"start_offset": 12,
"end_offset": 14
}
]
},
"大洋": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 1,
"start_offset": 2,
"end_offset": 4
}
]
},
"好": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 8,
"start_offset": 14,
"end_offset": 15
}
]
},
"正": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 4,
"start_offset": 6,
"end_offset": 7
}
]
},
"牌子": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 6,
"start_offset": 10,
"end_offset": 12
}
]
},
"筒灯": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 0,
"start_offset": 0,
"end_offset": 2
}
]
},
"索": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 3,
"start_offset": 5,
"end_offset": 6
}
]
},
"这两个": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 5,
"start_offset": 7,
"end_offset": 10
}
]
}
}
}
}
}
下面我们说说如何通过java代码实现termvector的获取,不说废话直接上代码
TermVectorsResponse termVectorResponse = client.prepareTermVectors().setIndex(sourceindexname).setType(sourceindextype)
.setId(id).setSelectedFields(fieldname).setTermStatistics(true).execute()
.actionGet();
XContentBuilder builder = XContentFactory.contentBuilder(XContentType.JSON);
termVectorResponse.toXContent(builder, null);
System.out.println(builder.string());
Fields fields = termVectorResponse.getFields();
Iterator<String> iterator = fields.iterator();
while (iterator.hasNext()) {
String field = iterator.next();
Terms terms = fields.terms(field);
TermsEnum termsEnum = terms.iterator();
while (termsEnum.next() != null) {
BytesRef term = termsEnum.term();
if (term != null) {
System.out.println(term.utf8ToString() + termsEnum.totalTermFreq());
}
}
}
获取TermVectorsResponse的代码很好理解,主要是设置索引名称、索引type、索引id以及需要展示的若干属性。
接下来是如何获取某一term的termvector,有两种方案第一种是通过TermVectorsResponse的toXContent方法直接生成XContentBuilder,这种方法可以直接获取和上面通过DSL查询一样的json结果;第二种是通过Fields的iterator遍历fields,获取TermsEnum,熟悉lucene的同学应会更熟悉第二种方法。
elasticsearch的termvectors包括了term的位置、词频等信息。这些信息用于相应的数据统计或开发其他功能,本文介绍termvecters如何使用,如何通过java客户端获取termvectors相关信息。
要使用termvctor首先要配置mapping中field的"term_vector"属性,默认状态es不开启termvector,因为这样会增加索引的体积,毕竟多存了不少元数据。
PUT test
{
"mappings": {
"qa_test": {
"dynamic": "strict",
"_all": {
"enabled": false
},
"properties": {
"question": {
"properties": {
"cate": {
"type": "keyword"
},
"desc": {
"type": "text",
"store": true,
"term_vector": "with_positions_offsets_payloads",
"analyzer": "ik_smart"
},
"time": {
"type": "date",
"store": true,
"format": "strict_date_optional_time||epoch_millis||yyyy-MM-dd HH:mm:ss"
},
"title": {
"type": "text",
"store": true,
"term_vector": "with_positions_offsets_payloads",
"analyzer": "ik_smart"
}
}
},
"updatetime": {
"type": "date",
"store": true,
"format": "strict_date_optional_time||epoch_millis||yyyy-MM-dd HH:mm:ss"
}
}
}
},
"settings": {
"index": {
"number_of_shards": "1",
"requests": {
"cache": {
"enable": "true"
}
},
"number_of_replicas": "1"
}
}
}
注意示例中的"title"的"term_vector"属性。
接下来为索引创建一条数据
PUT qa_test_02/qa_test/1
{
"question": {
"cate": [
"装修流程",
"其它"
],
"desc": "筒灯,大洋和索正这两个牌子,哪个好?希望内行的朋友告知一下,谢谢!",
"time": "2016-07-02 19:59:00",
"title": "筒灯大洋和索正这两个牌子哪个好"
},
"updatetime": 1467503940000
}
下面我们看看这条数据上question.title字段的termvector信息
GET qa_test_02/qa_test/1/_termvectors
{
"fields": [
"question.title"
],
"offsets": true,
"payloads": true,
"positions": true,
"term_statistics": true,
"field_statistics": true
}
结果大概这个样子
{
"_index": "qa_test_02",
"_type": "qa_test",
"_id": "1",
"_version": 1,
"found": true,
"took": 0,
"term_vectors": {
"question.title": {
"field_statistics": {
"sum_doc_freq": 9,
"doc_count": 1,
"sum_ttf": 9
},
"terms": {
"和": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 2,
"start_offset": 4,
"end_offset": 5
}
]
},
"哪个": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 7,
"start_offset": 12,
"end_offset": 14
}
]
},
"大洋": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 1,
"start_offset": 2,
"end_offset": 4
}
]
},
"好": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 8,
"start_offset": 14,
"end_offset": 15
}
]
},
"正": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 4,
"start_offset": 6,
"end_offset": 7
}
]
},
"牌子": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 6,
"start_offset": 10,
"end_offset": 12
}
]
},
"筒灯": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 0,
"start_offset": 0,
"end_offset": 2
}
]
},
"索": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 3,
"start_offset": 5,
"end_offset": 6
}
]
},
"这两个": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 5,
"start_offset": 7,
"end_offset": 10
}
]
}
}
}
}
}
下面我们说说如何通过java代码实现termvector的获取,不说废话直接上代码
TermVectorsResponse termVectorResponse = client.prepareTermVectors().setIndex(sourceindexname).setType(sourceindextype)
.setId(id).setSelectedFields(fieldname).setTermStatistics(true).execute()
.actionGet();
XContentBuilder builder = XContentFactory.contentBuilder(XContentType.JSON);
termVectorResponse.toXContent(builder, null);
System.out.println(builder.string());
Fields fields = termVectorResponse.getFields();
Iterator<String> iterator = fields.iterator();
while (iterator.hasNext()) {
String field = iterator.next();
Terms terms = fields.terms(field);
TermsEnum termsEnum = terms.iterator();
while (termsEnum.next() != null) {
BytesRef term = termsEnum.term();
if (term != null) {
System.out.println(term.utf8ToString() + termsEnum.totalTermFreq());
}
}
}
获取TermVectorsResponse的代码很好理解,主要是设置索引名称、索引type、索引id以及需要展示的若干属性。
接下来是如何获取某一term的termvector,有两种方案第一种是通过TermVectorsResponse的toXContent方法直接生成XContentBuilder,这种方法可以直接获取和上面通过DSL查询一样的json结果;第二种是通过Fields的iterator遍历fields,获取TermsEnum,熟悉lucene的同学应会更熟悉第二种方法。
收起阅读 »社区日报 第163期 (2018-01-19)
http://t.cn/RQoQv2k
2、年后跳一跳|ES面试基础知识要点
http://t.cn/RQoHTLU
3、ES实践总结
http://t.cn/RHHczic
编辑:铭毅天下
归档:https://elasticsearch.cn/article/460
订阅:https://tinyletter.com/elastic-daily
http://t.cn/RQoQv2k
2、年后跳一跳|ES面试基础知识要点
http://t.cn/RQoHTLU
3、ES实践总结
http://t.cn/RHHczic
编辑:铭毅天下
归档:https://elasticsearch.cn/article/460
订阅:https://tinyletter.com/elastic-daily 收起阅读 »
社区日报 第162期 (2018-01-18)
http://t.cn/RQSwjeQ
2.elasticsearch的慢日志
http://t.cn/RQSwH4X
3.Zabbix3.4.5:历史数据支持Elasticsearch
http://t.cn/RQSw86k
编辑:金桥
归档:https://elasticsearch.cn/article/459
订阅:https://tinyletter.com/elastic-daily
http://t.cn/RQSwjeQ
2.elasticsearch的慢日志
http://t.cn/RQSwH4X
3.Zabbix3.4.5:历史数据支持Elasticsearch
http://t.cn/RQSw86k
编辑:金桥
归档:https://elasticsearch.cn/article/459
订阅:https://tinyletter.com/elastic-daily 收起阅读 »
社区日报 第161期 (2018-01-17)
http://t.cn/RHfAzdh
2. 5种 Logstash 替代者对比
http://t.cn/RQiwTSZ
3. Elasticsearch Tutorial & Getting Started(YouTuBe)
http://t.cn/RQiZ8jc
编辑:江水
归档:https://elasticsearch.cn/article/458
订阅:https://tinyletter.com/elastic-daily
http://t.cn/RHfAzdh
2. 5种 Logstash 替代者对比
http://t.cn/RQiwTSZ
3. Elasticsearch Tutorial & Getting Started(YouTuBe)
http://t.cn/RQiZ8jc
编辑:江水
归档:https://elasticsearch.cn/article/458
订阅:https://tinyletter.com/elastic-daily 收起阅读 »
社区日报 第160期 (2018-01-16)
http://t.cn/RQfQf6L
2.TableStore+Elasticsearch,海量图书信息全文检索系统实践。
http://t.cn/RYvNMD3
3.社区好文,wood叔原创,ElasticSearch集群故障案例分析之警惕通配符查询。
https://elasticsearch.cn/article/171
编辑:叮咚光军
归档:https://elasticsearch.cn/article/456
订阅:https://tinyletter.com/elastic-daily
http://t.cn/RQfQf6L
2.TableStore+Elasticsearch,海量图书信息全文检索系统实践。
http://t.cn/RYvNMD3
3.社区好文,wood叔原创,ElasticSearch集群故障案例分析之警惕通配符查询。
https://elasticsearch.cn/article/171
编辑:叮咚光军
归档:https://elasticsearch.cn/article/456
订阅:https://tinyletter.com/elastic-daily
收起阅读 »
社区日报 第159期 (2018-01-15)
http://t.cn/RQcxAWA
2.使用XPACK来完成基于属性的权限控制。
http://t.cn/RQcJD9h
3.Beats 6.1 新特性。
http://t.cn/RQc65os
编辑:cyberdak
归档:https://elasticsearch.cn/article/455
订阅:https://tinyletter.com/elastic-daily
http://t.cn/RQcxAWA
2.使用XPACK来完成基于属性的权限控制。
http://t.cn/RQcJD9h
3.Beats 6.1 新特性。
http://t.cn/RQc65os
编辑:cyberdak
归档:https://elasticsearch.cn/article/455
订阅:https://tinyletter.com/elastic-daily
收起阅读 »
社区日报 第158期 (2018-01-14)
-
如何使用Elasticsearch下载字段的所有独特术语。 http://t.cn/RQGh4wl
-
如何在Elasticsearch中找到相似的术语。 http://t.cn/RQGz6Pt
- (自备梯子)想成为一名数据科学家?尝试费曼技术。 http://t.cn/RQGwPhu
-
如何使用Elasticsearch下载字段的所有独特术语。 http://t.cn/RQGh4wl
-
如何在Elasticsearch中找到相似的术语。 http://t.cn/RQGz6Pt
- (自备梯子)想成为一名数据科学家?尝试费曼技术。 http://t.cn/RQGwPhu
社区日报 第157期 (2018-01-13)
-
ES6.1新特性:利用机器学习进行按需预测 http://t.cn/RQ4GZll
-
利用ES为推荐的产品定制评分(需翻墙) http://t.cn/RQ45Wva
- 一周热点:冲顶大会等答题类游戏的辅助决策开源代码,各位道友可以试试 http://t.cn/RQAxiCr
-
ES6.1新特性:利用机器学习进行按需预测 http://t.cn/RQ4GZll
-
利用ES为推荐的产品定制评分(需翻墙) http://t.cn/RQ45Wva
- 一周热点:冲顶大会等答题类游戏的辅助决策开源代码,各位道友可以试试 http://t.cn/RQAxiCr
社区日报 第156期 (2018-01-12)
https://elasticsearch.cn/article/450
2、Elasticsearch query 解析器(梯子)
http://t.cn/RQLzKJo
3、图解Elasticsearch基础属性
http://t.cn/RQLhVzS
编辑:铭毅天下
归档:https://elasticsearch.cn/article/452
订阅:https://tinyletter.com/elastic-daily
https://elasticsearch.cn/article/450
2、Elasticsearch query 解析器(梯子)
http://t.cn/RQLzKJo
3、图解Elasticsearch基础属性
http://t.cn/RQLhVzS
编辑:铭毅天下
归档:https://elasticsearch.cn/article/452
订阅:https://tinyletter.com/elastic-daily 收起阅读 »
社区日报 第155期 (2018-01-11)
http://t.cn/RQZjbhL
2.wood出品:number?keyword?傻傻分不清楚
https://elasticsearch.cn/article/446
3.ebay的elasticsearch性能调优实践
http://t.cn/RQhzDiP
编辑:金桥
归档:https://elasticsearch.cn/article/451
订阅: https://tinyletter.com/elastic-daily
http://t.cn/RQZjbhL
2.wood出品:number?keyword?傻傻分不清楚
https://elasticsearch.cn/article/446
3.ebay的elasticsearch性能调优实践
http://t.cn/RQhzDiP
编辑:金桥
归档:https://elasticsearch.cn/article/451
订阅: https://tinyletter.com/elastic-daily 收起阅读 »
elasticsearch java原生打分插件开发
能有影响elasticsearch score的方法有很多,官方推荐的是使用内置的painless脚本语言结合function_score来重新定义score。由于本人开发的项目其算法是由java语言开发的,于是决定尝试原生脚本开发。 elasticsearch脚本由plugin-descriptor.properties文件以及运行jar包组成,plugin-descriptor.properties主要用来定义版本信息、对应es的版本信息等属性。
官方的例子
public class ExpertScriptPlugin extends Plugin implements ScriptPlugin {
@Override
public ScriptEngineService getScriptEngineService(Settings settings) {
return new MyExpertScriptEngine();
}
/** An example {@link ScriptEngineService} that uses Lucene segment details to implement pure document frequency scoring. */
// tag::expert_engine
private static class MyExpertScriptEngine implements ScriptEngineService {
@Override
public String getType() {
return "expert_scripts";
}
@Override
public Function<Map<String,Object>,SearchScript> compile(String scriptName, String scriptSource, Map<String, String> params) {
// we use the script "source" as the script identifier
if ("pure_df".equals(scriptSource)) {
return p -> new SearchScript() {
final String field;
final String term;
{
if (p.containsKey("field") == false) {
throw new IllegalArgumentException("Missing parameter [field]");
}
if (p.containsKey("term") == false) {
throw new IllegalArgumentException("Missing parameter [term]");
}
field = p.get("field").toString();
term = p.get("term").toString();
}
@Override
public LeafSearchScript getLeafSearchScript(LeafReaderContext context) throws IOException {
PostingsEnum postings = context.reader().postings(new Term(field, term));
if (postings == null) {
// the field and/or term don't exist in this segment, so always return 0
return () -> 0.0d;
}
return new LeafSearchScript() {
int currentDocid = -1;
@Override
public void setDocument(int docid) {
// advance has undefined behavior calling with a docid <= its current docid
if (postings.docID() < docid) {
try {
postings.advance(docid);
} catch (IOException e) {
throw new UncheckedIOException(e);
}
}
currentDocid = docid;
}
@Override
public double runAsDouble() {
if (postings.docID() != currentDocid) {
// advance moved past the current doc, so this doc has no occurrences of the term
return 0.0d;
}
try {
return postings.freq();
} catch (IOException e) {
throw new UncheckedIOException(e);
}
}
};
}
@Override
public boolean needsScores() {
return false;
}
};
}
throw new IllegalArgumentException("Unknown script name " + scriptSource);
}
@Override
@SuppressWarnings("unchecked")
public SearchScript search(CompiledScript compiledScript, SearchLookup lookup, @Nullable Map<String, Object> params) {
Function<Map<String,Object>,SearchScript> scriptFactory = (Function<Map<String,Object>,SearchScript>) compiledScript.compiled();
return scriptFactory.apply(params);
}
@Override
public ExecutableScript executable(CompiledScript compiledScript, @Nullable Map<String, Object> params) {
throw new UnsupportedOperationException();
}
@Override
public boolean isInlineScriptEnabled() {
return true;
}
@Override
public void close() {}
}
}
代码解读: 本例在elasticsearch源码中,https://github.com/elastic/elasticsearch/tree/master/plugins/examples/script-expert-scoring
MyExpertScriptEngine类是其中最重要的类,用于实现脚本参数定义,编译,以及打分机制的实现。其中compile方法返回我们定义好打分逻辑的java function。search方法用于我们在搜索过程中实施定义好的打分逻辑。 怎奈笔者对于函数式编程知道的不多(后续需要补课),其实评分逻辑也可以在search方法中实现,于是有了下面的一段代码。
public class fieldaddScriptPlugin extends Plugin implements ScriptPlugin {
@Override
public ScriptEngineService getScriptEngineService(Settings settings) {
return new MyExpertScriptEngine();
}
private static class MyExpertScriptEngine implements ScriptEngineService {
@Override
public String getType() {
return "expert_scripts";
}
@Override
public Object compile(String scriptName, String scriptSource, Map<String, String> params) {
if ("example_add".equals(scriptSource)) {
return scriptSource;
}
throw new IllegalArgumentException("Unknown script name " + scriptSource);
}
@Override
@SuppressWarnings("unchecked")
public SearchScript search(CompiledScript compiledScript, SearchLookup lookup, @Nullable Map<String, Object> vars) {
/**
* 校验输入参数,DSL中params 参数列表
*/
final long inc;
final String fieldname;
if (vars == null || vars.containsKey("inc") == false) {
inc = 0;
} else {
inc = ((Number) vars.get("inc")).longValue();
}
if (vars == null || vars.containsKey("fieldname") == false) {
throw new IllegalArgumentException("Missing parameter [fieldname]");
} else {
fieldname = (String) vars.get("fieldname");
}
return new SearchScript() {
@Override
public LeafSearchScript getLeafSearchScript(LeafReaderContext context) throws IOException {
final LeafSearchLookup leafLookup = lookup.getLeafSearchLookup(context);
return new LeafSearchScript() {
@Override
public void setDocument(int doc) {
if (leafLookup != null) {
leafLookup.setDocument(doc);
}
}
@Override
public double runAsDouble() {
long values = 0;
/**
* 获取document中字段内容
*/
for (Object v : (List<?>) leafLookup.doc().get(fieldname)) {
values = ((Number) v).longValue() + values;
}
return values + inc;
}
};
}
@Override
public boolean needsScores() {
return false;
}
};
}
这段代码的逻辑是把给定的字段(字段类型long)的每个元素相加后再加上给定的增量参数最后形成score分值。为了实现上述逻辑需要实现参数获取、根据给定的字段名获取内容列表量的关键件。下面结合代码说说这两个步骤如何实现的。
search方法中Map<String, Object> vars参数对应DSL中"params"参数,用于接受实际给定的运行时参数。SearchLookup lookup参数由系统传入,通过lookup.getLeafSearchLookup(context)获取LeafSearchLookup通过该对象可以获取给定字段的值。
对于elasticsearch 2.x以前的版本可以通过NativeScriptFactory实现原生脚本。
public class MyNativeScriptPlugin extends Plugin implements ScriptPlugin {
private final static Logger LOGGER = LogManager.getLogger(MyFirstPlugin.class);
public MyNativeScriptPlugin() {
super();
LOGGER.warn("This is MyNativeScriptPlugin");
}
@Override
public List<NativeScriptFactory> getNativeScripts() {
return Collections.singletonList(new MyNativeScriptFactory());
}
public static class MyNativeScriptFactory implements NativeScriptFactory {
@Override
public ExecutableScript newScript(@Nullable Map<String, Object> params) {
// return new MyNativeScript();
return new AbstractDoubleSearchScript(){
@Override
public double runAsDouble() {
int b=0;
if(params.get("add")!=null){
b= (int) params.get("add");
}
String s = source().get("last").toString();
double a = s.length()+b;
return a; }
};
}
@Override
public boolean needsScores() {
return false;
}
@Override
public String getName() {
return "my_script";
}
}
}
工程组织 elasticsearch工程使用gradle进行依赖管理和生命周期管理,为此es项目自己也开发了esplugin的gradle插件,但不兼容gradle4.2以上的版本。参考github中的成熟插件,使用maven组织工程。
主要涉及两个文件 pom.xml plugin.xml 工程利用maven-assembly-plugin打包jar。
本例github地址:https://github.com/jiashiwen/elasticsearchpluginsample 欢迎点赞或拍砖
能有影响elasticsearch score的方法有很多,官方推荐的是使用内置的painless脚本语言结合function_score来重新定义score。由于本人开发的项目其算法是由java语言开发的,于是决定尝试原生脚本开发。 elasticsearch脚本由plugin-descriptor.properties文件以及运行jar包组成,plugin-descriptor.properties主要用来定义版本信息、对应es的版本信息等属性。
官方的例子
public class ExpertScriptPlugin extends Plugin implements ScriptPlugin {
@Override
public ScriptEngineService getScriptEngineService(Settings settings) {
return new MyExpertScriptEngine();
}
/** An example {@link ScriptEngineService} that uses Lucene segment details to implement pure document frequency scoring. */
// tag::expert_engine
private static class MyExpertScriptEngine implements ScriptEngineService {
@Override
public String getType() {
return "expert_scripts";
}
@Override
public Function<Map<String,Object>,SearchScript> compile(String scriptName, String scriptSource, Map<String, String> params) {
// we use the script "source" as the script identifier
if ("pure_df".equals(scriptSource)) {
return p -> new SearchScript() {
final String field;
final String term;
{
if (p.containsKey("field") == false) {
throw new IllegalArgumentException("Missing parameter [field]");
}
if (p.containsKey("term") == false) {
throw new IllegalArgumentException("Missing parameter [term]");
}
field = p.get("field").toString();
term = p.get("term").toString();
}
@Override
public LeafSearchScript getLeafSearchScript(LeafReaderContext context) throws IOException {
PostingsEnum postings = context.reader().postings(new Term(field, term));
if (postings == null) {
// the field and/or term don't exist in this segment, so always return 0
return () -> 0.0d;
}
return new LeafSearchScript() {
int currentDocid = -1;
@Override
public void setDocument(int docid) {
// advance has undefined behavior calling with a docid <= its current docid
if (postings.docID() < docid) {
try {
postings.advance(docid);
} catch (IOException e) {
throw new UncheckedIOException(e);
}
}
currentDocid = docid;
}
@Override
public double runAsDouble() {
if (postings.docID() != currentDocid) {
// advance moved past the current doc, so this doc has no occurrences of the term
return 0.0d;
}
try {
return postings.freq();
} catch (IOException e) {
throw new UncheckedIOException(e);
}
}
};
}
@Override
public boolean needsScores() {
return false;
}
};
}
throw new IllegalArgumentException("Unknown script name " + scriptSource);
}
@Override
@SuppressWarnings("unchecked")
public SearchScript search(CompiledScript compiledScript, SearchLookup lookup, @Nullable Map<String, Object> params) {
Function<Map<String,Object>,SearchScript> scriptFactory = (Function<Map<String,Object>,SearchScript>) compiledScript.compiled();
return scriptFactory.apply(params);
}
@Override
public ExecutableScript executable(CompiledScript compiledScript, @Nullable Map<String, Object> params) {
throw new UnsupportedOperationException();
}
@Override
public boolean isInlineScriptEnabled() {
return true;
}
@Override
public void close() {}
}
}
代码解读: 本例在elasticsearch源码中,https://github.com/elastic/elasticsearch/tree/master/plugins/examples/script-expert-scoring
MyExpertScriptEngine类是其中最重要的类,用于实现脚本参数定义,编译,以及打分机制的实现。其中compile方法返回我们定义好打分逻辑的java function。search方法用于我们在搜索过程中实施定义好的打分逻辑。 怎奈笔者对于函数式编程知道的不多(后续需要补课),其实评分逻辑也可以在search方法中实现,于是有了下面的一段代码。
public class fieldaddScriptPlugin extends Plugin implements ScriptPlugin {
@Override
public ScriptEngineService getScriptEngineService(Settings settings) {
return new MyExpertScriptEngine();
}
private static class MyExpertScriptEngine implements ScriptEngineService {
@Override
public String getType() {
return "expert_scripts";
}
@Override
public Object compile(String scriptName, String scriptSource, Map<String, String> params) {
if ("example_add".equals(scriptSource)) {
return scriptSource;
}
throw new IllegalArgumentException("Unknown script name " + scriptSource);
}
@Override
@SuppressWarnings("unchecked")
public SearchScript search(CompiledScript compiledScript, SearchLookup lookup, @Nullable Map<String, Object> vars) {
/**
* 校验输入参数,DSL中params 参数列表
*/
final long inc;
final String fieldname;
if (vars == null || vars.containsKey("inc") == false) {
inc = 0;
} else {
inc = ((Number) vars.get("inc")).longValue();
}
if (vars == null || vars.containsKey("fieldname") == false) {
throw new IllegalArgumentException("Missing parameter [fieldname]");
} else {
fieldname = (String) vars.get("fieldname");
}
return new SearchScript() {
@Override
public LeafSearchScript getLeafSearchScript(LeafReaderContext context) throws IOException {
final LeafSearchLookup leafLookup = lookup.getLeafSearchLookup(context);
return new LeafSearchScript() {
@Override
public void setDocument(int doc) {
if (leafLookup != null) {
leafLookup.setDocument(doc);
}
}
@Override
public double runAsDouble() {
long values = 0;
/**
* 获取document中字段内容
*/
for (Object v : (List<?>) leafLookup.doc().get(fieldname)) {
values = ((Number) v).longValue() + values;
}
return values + inc;
}
};
}
@Override
public boolean needsScores() {
return false;
}
};
}
这段代码的逻辑是把给定的字段(字段类型long)的每个元素相加后再加上给定的增量参数最后形成score分值。为了实现上述逻辑需要实现参数获取、根据给定的字段名获取内容列表量的关键件。下面结合代码说说这两个步骤如何实现的。
search方法中Map<String, Object> vars参数对应DSL中"params"参数,用于接受实际给定的运行时参数。SearchLookup lookup参数由系统传入,通过lookup.getLeafSearchLookup(context)获取LeafSearchLookup通过该对象可以获取给定字段的值。
对于elasticsearch 2.x以前的版本可以通过NativeScriptFactory实现原生脚本。
public class MyNativeScriptPlugin extends Plugin implements ScriptPlugin {
private final static Logger LOGGER = LogManager.getLogger(MyFirstPlugin.class);
public MyNativeScriptPlugin() {
super();
LOGGER.warn("This is MyNativeScriptPlugin");
}
@Override
public List<NativeScriptFactory> getNativeScripts() {
return Collections.singletonList(new MyNativeScriptFactory());
}
public static class MyNativeScriptFactory implements NativeScriptFactory {
@Override
public ExecutableScript newScript(@Nullable Map<String, Object> params) {
// return new MyNativeScript();
return new AbstractDoubleSearchScript(){
@Override
public double runAsDouble() {
int b=0;
if(params.get("add")!=null){
b= (int) params.get("add");
}
String s = source().get("last").toString();
double a = s.length()+b;
return a; }
};
}
@Override
public boolean needsScores() {
return false;
}
@Override
public String getName() {
return "my_script";
}
}
}
工程组织 elasticsearch工程使用gradle进行依赖管理和生命周期管理,为此es项目自己也开发了esplugin的gradle插件,但不兼容gradle4.2以上的版本。参考github中的成熟插件,使用maven组织工程。
主要涉及两个文件 pom.xml plugin.xml 工程利用maven-assembly-plugin打包jar。
本例github地址:https://github.com/jiashiwen/elasticsearchpluginsample 欢迎点赞或拍砖
收起阅读 »【阿里云 Meetup】如何使用Elasticsearch进行智能运维
活动介绍
本期邀请了几位ES大咖做主题分享,并以Demo show和Workshop的形式介绍Elastisearch及其相关组件在搜索、日志分析和监控领域的应用,帮助用户更好的理解Elastisearch及其相关组件,在更多的搜索和分析场景中应用。Workshop环节请务必携带个人电脑参加。
活动安排
时间:2018年1月20日周六 13:30-17:00
地点:北京市海淀区中关村大街46号院-众海加速器(阿里巴巴创新中心)
活动主题
- 13:30—14:00 签到
- 14:00—14:30 主题分享《Elasticsearch在智能运维领域的应用》 Elastic布道师 曾勇
- 14:30—14:40 Q&A
- 14:40—15:10 Demo show《使用X-Pack和Kibana实现Elasticsearch 的监控与报警》 阿里云技术专家 李靖威
- 15:10—15:20 Q&A
- 15:20—15:50 Workshop《基于阿里云Elasticsearch构建网站日志处理系统》 阿里云产品专家 洪阳
- 15:50—16:00 Q&A
- 16:00—16:30 主题分享《ELK在运维工作中应用两三事》 上海安畅运维专家 韩军辉
- 16:30—17:00 现场快闪分享
- 17:00—17:30 现场专家一对一交流
报名通道
活动报名通道:
https://yq.aliyun.com/event/193/join
可提前报名现场快闪分享(5分钟/位),讲讲自己的ELK实践心得,报名链接:
https://survey.aliyun.com/survey/kMXx0zCfB
也可使用钉钉扫描,加入Elasticsearch技术交流群:
嘉宾介绍
曾勇 Elastic布道师
Elastic开发工程师与布道师,在分布式搜索、高性能、高可用架构、自动化运维等方面积累了超过七年的经验。曾勇是Elasticsearch国内首批用户,自2010年起就开始接触Elasticsearch并投入到生产环境中使用,并编写过一系列的中文处理相关的插件。
演讲主题:《Elasticsearch在智能运维领域的应用》
分享Elasticsearch和X-Pack组件在智能运维领域的技术原理和应用实践,如非监督型机器学习在自动的异常检测、高级关联和分类、根源问题诊断、早期故障预测等方面的应用等。
李靖威 阿里云技术专家
全栈程序员,精通前后端,在Web微服务系统架构上有深入研究。3年搜索产品相关经验,现负责阿里云Elasticsearch的产品业务部分的开发。
演讲主题:《使用X-Pack和Kibana实现Elasticsearch 的监控与报警》
以开源 Elasticsearch、阿里云 Elasticsearch和X-Pack的Demo show的形式, 对 Elasticsearch 集群监控和报警的内部原理进行讲解和使用方法演示。
洪阳 阿里云产品专家
阿里云搜索产品经理,从事多年大数据及搜索相关产品工作,在离线数据加工、离线调度系统、在线搜索等场景深入研究,对大数据和搜索相关产品有丰富的经验。
演讲主题:《基于阿里云Elasticsearch构建网站日志处理系统》
基于阿里云的Elasticsearch,离线数仓加工工具,数据同步工具等一些列产品来快速构建一个日志处理系统,从离线数据加工到在线数据搜索和分析展现诠释数据加工在阿里云产品上如何快速展开。
韩军辉 上海安畅运维专家
上海安畅网络运维主管,热衷于开源技术的学习和深入研究,从事多年的ELK运维相关工作,对ELK Stack有深入研究,对ELK相关运维有丰富的经验。
演讲主题:《ELK在运维工作中应用两三事》
基于ELK Stack、sflow技术、sflowtool工具、kafka消息队列等开源技术构建一套流量分析、DDOS告警系统。从流量收集、分析、存储、展现、告警一套流程来诠释ELK在流量分析中的应用。
活动介绍
本期邀请了几位ES大咖做主题分享,并以Demo show和Workshop的形式介绍Elastisearch及其相关组件在搜索、日志分析和监控领域的应用,帮助用户更好的理解Elastisearch及其相关组件,在更多的搜索和分析场景中应用。Workshop环节请务必携带个人电脑参加。
活动安排
时间:2018年1月20日周六 13:30-17:00
地点:北京市海淀区中关村大街46号院-众海加速器(阿里巴巴创新中心)
活动主题
- 13:30—14:00 签到
- 14:00—14:30 主题分享《Elasticsearch在智能运维领域的应用》 Elastic布道师 曾勇
- 14:30—14:40 Q&A
- 14:40—15:10 Demo show《使用X-Pack和Kibana实现Elasticsearch 的监控与报警》 阿里云技术专家 李靖威
- 15:10—15:20 Q&A
- 15:20—15:50 Workshop《基于阿里云Elasticsearch构建网站日志处理系统》 阿里云产品专家 洪阳
- 15:50—16:00 Q&A
- 16:00—16:30 主题分享《ELK在运维工作中应用两三事》 上海安畅运维专家 韩军辉
- 16:30—17:00 现场快闪分享
- 17:00—17:30 现场专家一对一交流
报名通道
活动报名通道:
https://yq.aliyun.com/event/193/join
可提前报名现场快闪分享(5分钟/位),讲讲自己的ELK实践心得,报名链接:
https://survey.aliyun.com/survey/kMXx0zCfB
也可使用钉钉扫描,加入Elasticsearch技术交流群:
嘉宾介绍
曾勇 Elastic布道师
Elastic开发工程师与布道师,在分布式搜索、高性能、高可用架构、自动化运维等方面积累了超过七年的经验。曾勇是Elasticsearch国内首批用户,自2010年起就开始接触Elasticsearch并投入到生产环境中使用,并编写过一系列的中文处理相关的插件。
演讲主题:《Elasticsearch在智能运维领域的应用》
分享Elasticsearch和X-Pack组件在智能运维领域的技术原理和应用实践,如非监督型机器学习在自动的异常检测、高级关联和分类、根源问题诊断、早期故障预测等方面的应用等。
李靖威 阿里云技术专家
全栈程序员,精通前后端,在Web微服务系统架构上有深入研究。3年搜索产品相关经验,现负责阿里云Elasticsearch的产品业务部分的开发。
演讲主题:《使用X-Pack和Kibana实现Elasticsearch 的监控与报警》
以开源 Elasticsearch、阿里云 Elasticsearch和X-Pack的Demo show的形式, 对 Elasticsearch 集群监控和报警的内部原理进行讲解和使用方法演示。
洪阳 阿里云产品专家
阿里云搜索产品经理,从事多年大数据及搜索相关产品工作,在离线数据加工、离线调度系统、在线搜索等场景深入研究,对大数据和搜索相关产品有丰富的经验。
演讲主题:《基于阿里云Elasticsearch构建网站日志处理系统》
基于阿里云的Elasticsearch,离线数仓加工工具,数据同步工具等一些列产品来快速构建一个日志处理系统,从离线数据加工到在线数据搜索和分析展现诠释数据加工在阿里云产品上如何快速展开。
韩军辉 上海安畅运维专家
上海安畅网络运维主管,热衷于开源技术的学习和深入研究,从事多年的ELK运维相关工作,对ELK Stack有深入研究,对ELK相关运维有丰富的经验。
演讲主题:《ELK在运维工作中应用两三事》
基于ELK Stack、sflow技术、sflowtool工具、kafka消息队列等开源技术构建一套流量分析、DDOS告警系统。从流量收集、分析、存储、展现、告警一套流程来诠释ELK在流量分析中的应用。
收起阅读 »