行动是治愈恐惧的良药,而犹豫、拖延将不断滋养恐惧。

社区日报 第1233期 (2021-04-10)

社区日报bsll 发表了文章 • 0 个评论 • 1432 次浏览 • 2021-04-10 21:30 • 来自相关话题

1.使用es和python构建人脸检测系统

[https://www.elastic.co/cn/blog ... ython](https://www.elastic.co/cn/blog ... python)

2.集群升级索引

[https://codingnote.cc/p/360038/](https://codingnote.cc/p/360038/)

3.es bool查询时,must和should混用的正确姿势

[https://blog.csdn.net/zch3210/ ... 71618](https://blog.csdn.net/zch3210/ ... 471618)


社区日报 第1232期 (2021-04-09)

社区日报laoyang360 发表了文章 • 0 个评论 • 1527 次浏览 • 2021-04-09 23:29 • 来自相关话题

1、Elasticsearch 和 Kafka 强强联合、无缝衔接
https://www.elastic.co/cn/blog ... ience
2、基于EFK的日志场景实践
https://blog.dream11engineerin ... 13cd5
3、Kibana 部署视频详解(梯子)
https://www.youtube.com/watch?v=kqCd2mVQE54
 
编辑:铭毅天下
归档:https://ela.st/cn-daily-all
订阅https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup

社区日报 第1231期 (2021-04-08)

社区日报BKing 发表了文章 • 0 个评论 • 1490 次浏览 • 2021-04-09 09:20 • 来自相关话题

1. 如何使用 Elastic 可观测性来监测 NVIDIA GPU 指标
https://www.elastic.co/cn/blog ... ility
2.设置Elasticsearch集群(梯子)
https://medium.com/grafana-tut ... 16cb4
3.集中式日志 EFK — Helm (Elasticsearch, Fluentd, Kibana)(梯子)
https://rajprataprps.medium.co ... d79f2

编辑:寂寞的烟
归档:https://ela.st/cn-daily-all
订阅https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
 

Elasticsearch 7.10.0 scripted_metric使用HashMap存储和cardinality去重查获取的结果集不一致

Elasticsearchamc 回复了问题 • 2 人关注 • 1 个回复 • 2224 次浏览 • 2021-04-10 12:27 • 来自相关话题

ElasticAppSearch如何后台运行

回复

Elasticsearchzhacai 发起了问题 • 1 人关注 • 0 个回复 • 2705 次浏览 • 2021-04-08 18:10 • 来自相关话题

社区日报 第1230期 (2021-04-07)

社区日报elk123 发表了文章 • 0 个评论 • 1492 次浏览 • 2021-04-07 23:03 • 来自相关话题

1. Rust搜索引擎
https://github.com/meilisearch/MeiliSearch
2. forcemerge,类型选择和 oom
https://mp.weixin.qq.com/s/4GTwz8YGgxd57VsTbi7lfw
3. 滴滴Elasticsearch多集群架构实践
https://zhuanlan.zhihu.com/p/52387989

编辑:wt
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup

logstash消费kafka导出到webhdfs出错,Kerberos验证失败

回复

Logstashsanshi123 发起了问题 • 1 人关注 • 0 个回复 • 2487 次浏览 • 2021-04-07 17:26 • 来自相关话题

elasticsearch 支持 yara吗?elasticsearch 插件 elasticsearch-yara

回复

开源项目15210602359znn 回复了问题 • 2 人关注 • 2 个回复 • 3311 次浏览 • 2021-04-07 17:20 • 来自相关话题

ES 6.3.0 同义词配置后 查询结果异常

回复

Elasticsearchakingseu 发起了问题 • 1 人关注 • 0 个回复 • 1743 次浏览 • 2021-04-07 14:34 • 来自相关话题

如何查询,可以设置client节点不合并data节点返回的结果?

Elasticsearchzqc0512 回复了问题 • 4 人关注 • 3 个回复 • 1098 次浏览 • 2021-04-07 11:06 • 来自相关话题

elasticsearch中,多个index间不同field的权重不同,能否通过一次查询来解决?

Elasticsearchvienous 回复了问题 • 2 人关注 • 1 个回复 • 1261 次浏览 • 2021-04-06 17:51 • 来自相关话题

scala向es写入,连接超时

Elasticsearchzqc0512 回复了问题 • 2 人关注 • 1 个回复 • 1659 次浏览 • 2021-04-07 10:50 • 来自相关话题

Elasticsearch 实现模糊查询效果方式对比

Elasticsearchguoyanbiao520 发表了文章 • 3 个评论 • 11312 次浏览 • 2021-04-01 18:06 • 来自相关话题


下面是ES做传统意义上的模糊查询的两种方式,我们分析下优劣势
1:将字段设置为keyword类型,使用wildcard实现模糊查询,如果数据量较大,这种方式模糊查询效率是非常低的,所以实际案例中其实是不太实用的,除非你的数据量只有几十万,完全不用考虑效率问题,而且ES限制单个词条不能超过32766个字节,那么超过10000多字符的文章是不能被全部索引到的,那么模糊查询时就查不到没有索引到的关键词。

2:实用match_phrase查询,设置slop为0,配合单字分词实现模糊查询效果。
第二种方式最关键的是我们要实现单字符的分词,通常很多人认为标准分词器就是单字分词,事实上stander分词器只能对中文实现单字分词,对英文与数字是不能单字符分词的,而且本身就是忽略标点符号的,这样的话用match_phrase实现模糊查询其实就有误差了,例如 “中国最美,丽江盛景”,这个时候我们搜索“美丽”也一样能搜到,因为他本身忽略了标点符号,或者搜索数字或者字母时也一样没有办法跟传统的模糊查询保持一致。

所以经过测试,推荐使用ngram自定义配置实现单字分词效果,分析器配置入下
"analysis": {
"analyzer": {
"charSplit": {
"type": "custom",
"tokenizer": "my_ngram_tokenizer",
"filter": [
"lowercase"
],
"char_filter": [
"html_strip"
]
}
},
"tokenizer": {
"my_ngram_tokenizer": {
"type": "nGram",
"min_gram": "1",
"max_gram": "1",
"token_chars": [
"letter",
"digit",
"punctuation"
]
}
}
}
这样我们可以把所有的字符都单字分词,然后配合match_phrase就能实现一个真正意义上的模糊查询,这种搜索效率是比wildcard要高出很多。

上面两种方式都可以实现模糊查询的效果,第一种方式缺点就是效率太低,而且字段长度太大没有办法全部索引到。再看下第二种方式的问题

1.使用ngram单字分词会导致索引量增加(测试发现基本会翻倍甚至更多),相应的分片数与硬件配置要求需要增加。

2.使用单字符分词会使同义词查询失效,甚至影响相似性查询等操作,当然,一般来说要模糊查询也就不会考虑同义词查询了。

3.继承了传统模糊查询的问题,如搜索“8年抗战”相关内容,直接搜索关键词“8年”,会搜索到包含“2018年”的内容,这样显然不是你要的结果,但是模糊查询就是这样的效果。

4.field_data也是基于倒排索引实现功能,如有聚合或者排序等操作,也会使用单字符效果,如:某字段存储汉字“中国”,“美国”,但类型为text,这个时候如果要按照国家来聚合查询数据,单字段分词结果就会不准确,就是说聚合与排序也会用单字分词后的索引去做聚合与排序,结果自然也就有偏差了.

以上就是两种模糊查询的方式对比,实际环境里还是需要按照实际的需求与环境决定怎样选择,各位大神如果有更好的方式欢迎交流分享!

社区日报 第1229期 (2021-04-01)

社区日报白衬衣 发表了文章 • 0 个评论 • 1491 次浏览 • 2021-04-01 17:14 • 来自相关话题

1.Lucene高性能索引之道
https://mp.weixin.qq.com/s/_k-toltGmSBIl8zPq93jPQ
2.Flink 实时写入数据到 ElasticSearch 性能调优
https://mp.weixin.qq.com/s/bJ85tTSIHSpUIk-jPo0wxw
3.使用Beats创建ES template及Dashboard
https://elasticstack.blog.csdn ... 41977

编辑:金桥
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup

elasticsearch存储压缩

Elasticsearchmedcl 回复了问题 • 3 人关注 • 1 个回复 • 3564 次浏览 • 2021-04-02 13:24 • 来自相关话题