es聚合字段过多,导致查询慢
Elasticsearch • Charele 回复了问题 • 2 人关注 • 1 个回复 • 3012 次浏览 • 2023-06-21 13:11
社区日报 第1651期 (2023-06-21)
社区日报 • kin122 发表了文章 • 0 个评论 • 2848 次浏览 • 2023-06-21 10:22
1.Elasticsearch:实用 BM25 - 第 1 部分:分片如何影响 Elasticsearch 中的相关性评分
https://blog.csdn.net/UbuntuTo ... 26968
2.Elasticsearch:实用 BM25 - 第 2 部分:BM25 算法及其变量
https://blog.csdn.net/UbuntuTo ... 39480
3.Elasticsearch:实用 BM25 - 第 3 部分:在 Elasticsearch 中选择 b 和 k1 的注意事项
https://blog.csdn.net/UbuntuTo ... 68368
编辑:kin122
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili
es可以使用人脸模型deepface吗?
Elasticsearch • FFFrp 回复了问题 • 3 人关注 • 3 个回复 • 3034 次浏览 • 2023-06-24 18:01
社区日报 第1650期 (2023-06-20)
社区日报 • God_lockin 发表了文章 • 0 个评论 • 2335 次浏览 • 2023-06-20 14:48
1. 喂饭级教程教你用ES做数据分析(需要梯子)
https://medium.com/%40tumersev ... 0d973
2. 5分钟内拿到上千客户的信息,确定不是在难为我胖虎?(需要梯子)
https://medium.com/trendyol-te ... b453d
3. 出错了还有救吗?试试ignore-malformed?(需要梯子)
https://medium.com/%40giuseppe ... c2ce5
编辑:斯蒂文
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili
社区日报 第1649期 (2023-06-19)
社区日报 • yuebancanghai 发表了文章 • 0 个评论 • 2522 次浏览 • 2023-06-19 14:39
https://www.jianshu.com/p/f2a5001edd36
2. ElasticSearch 亿级数据检索深度优化
https://baijiahao.baidu.com/s% ... %3Dpc
3. 掌握它才说明你真正懂Elasticsearch
https://zhuanlan.zhihu.com/p/65075215
编辑:yuebancanghai
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili
Easysearch 跨版本兼容性测试,还原 Elasticsearch 各版本快照数据
Easysearch • liaosy 发表了文章 • 0 个评论 • 3526 次浏览 • 2023-06-17 12:50
本文主要测试验证 Elasticsearch 各版本快照在 [Easysearch](https://www.infinilabs.com/doc ... erview) 中进行数据恢复。
准备测试数据
索引

别名

模版

生命周期策略

创建快照
<br /> PUT /_snapshot/my_backup<br /> {<br /> "type": "fs",<br /> "settings": {<br /> "location": "/infini/test/es_backup"<br /> }<br /> }<br /> <br /> PUT /_snapshot/my_backup/snapshot_1<br /> {<br /> "indices": "*",<br /> "ignore_unavailable": false,<br /> "include_global_state": false<br /> }<br /> <br /> GET /_snapshot/my_backup/snapshot_1<br />
- ignore_unavailable:如果 indices 列表中的索引不存在,则是否忽略该索引而不是使快照失败。默认值为 false 。
- include_global_state:是否在快照中包含集群状态(包括索引模版、生命周期配置、持久化配置等)。默认值为 true ,建议设为 false。
恢复快照
<br /> POST /_snapshot/my_backup/snapshot_1/_restore<br /> {<br /> "indices": "*",<br /> "ignore_unavailable": false,<br /> "include_global_state": false,<br /> "include_aliases": true,<br /> "ignore_index_settings": [<br /> "index.lifecycle.indexing_complete"<br /> ]<br /> }<br />
- ignore_unavailable:如果 indices 列表中的索引不存在,则是否忽略该索引而不是使还原操作失败。默认值为 false 。
- include_global_state:是否还原群集状态。默认值为 false 。
- include_aliases:是否恢复别名及其关联索引。默认值为 true 。
- index.lifecycle.indexing_complete 配置不支持,忽略掉。
数据验证
索引

通过 gateway 进行数据比对
```
path.data: data
path.logs: log
show progress bar
progress_bar.enabled: true
elasticsearch:- name: source
enabled: true
endpoints:
- name: target
enabled: true
endpoints:
- https://192.168.3.185:9205
basic_auth:
username: admin
password: admin
pipeline:
- https://192.168.3.185:9205
- name: index_diff_service
auto_start: true
processor:
- dag:
mode: wait_all
parallel:
- dump_hash: #dump es1's doc
sort_document_fields: true
indices: ".infini_activities-000004" ##需要比对的索引名
scroll_time: "10m"
elasticsearch: "source"
query_string: "_id:c8es70pu46lgfdgmja9g-1646117763293610802-2"
fields: "doc_hash"
output_queue: "source_docs"
batch_size: 5000
slice_size: 1hash_func: "xxhash64"
- dump_hash: #dump es2's doc
indices: ".infini_activities-000004"
scroll_time: "10m"
fields: "doc_hash"
query_string: "_id:c8es70pu46lgfdgmja9g-1646117763293610802-2"
batch_size: 5000
slice_size: 1hash_func: "xxhash64"
elasticsearch: "target"
output_queue: "target_docs"
end: - index_diff:
diff_queue: "diff_result"
buffer_size: 10
text_report: true #如果要存 es,这个开关关闭,开启 pipeline 的 diff_result_ingest 任务
source_queue: "source_docs"
target_queue: "target_docs"
pipeline:
- name: diff_result_ingest
processor:
- json_indexing:
index_name: "diff_result"
elasticsearch: "source"
input_queue: "diff_result"
```
./gateway-linux-amd64 -config data_check.yml

别名

模版
<br /> PUT _template/.infini_activities-rollover<br /> {<br /> "order": 100000,<br /> "index_patterns": [<br /> ".infini_activities*"<br /> ],<br /> "settings": {<br /> "index": {<br /> "format": "7",<br /> "lifecycle": {<br /> "name": "ilm_.infini_metrics-30days-retention",<br /> "rollover_alias": ".infini_activities"<br /> },<br /> "codec": "best_compression",<br /> "number_of_shards": "1",<br /> "translog": {<br /> "durability": "async"<br /> }<br /> }<br /> },<br /> "mappings": {<br /> "dynamic_templates": [<br /> {<br /> "strings": {<br /> "mapping": {<br /> "ignore_above": 256,<br /> "type": "keyword"<br /> },<br /> "match_mapping_type": "string"<br /> }<br /> }<br /> ]<br /> },<br /> "aliases": {}<br /> }<br /> <br /> PUT _template/.infini<br /> {<br /> "order": 0,<br /> "index_patterns": [<br /> ".infini_*"<br /> ],<br /> "settings": {<br /> "index": {<br /> "max_result_window": "10000000",<br /> "mapping": {<br /> "total_fields": {<br /> "limit": "20000"<br /> }<br /> },<br /> "analysis": {<br /> "analyzer": {<br /> "suggest_text_search": {<br /> "filter": [<br /> "word_delimiter"<br /> ],<br /> "tokenizer": "classic"<br /> }<br /> }<br /> },<br /> "number_of_shards": "1"<br /> }<br /> },<br /> "mappings": {<br /> "dynamic_templates": [<br /> {<br /> "strings": {<br /> "mapping": {<br /> "ignore_above": 256,<br /> "type": "keyword"<br /> },<br /> "match_mapping_type": "string"<br /> }<br /> }<br /> ]<br /> },<br /> "aliases": {}<br /> }<br />
生命周期策略
<br /> PUT _ilm/policy/ilm_.infini_metrics-30days-retention<br /> {<br /> "policy": {<br /> "phases": {<br /> "hot": {<br /> "min_age": "0ms",<br /> "actions": {<br /> "rollover": {<br /> "max_size": "50gb",<br /> "max_age": "30d"<br /> },<br /> "set_priority": {<br /> "priority": 100<br /> }<br /> }<br /> },<br /> "delete": {<br /> "min_age": "30d",<br /> "actions": {<br /> "delete": {<br /> }<br /> }<br /> }<br /> }<br /> }<br /> }<br />
注:不支持 "delete_searchable_snapshot": true 配置
测试结果
| 源集群(Elasticsearch) | 目标集群(Easysearch) | 测试结果 |
| ----------------------- | ---------------------- | -------------------------- |
| 7.10.2 | 1.0.0 | 索引文档一致,别名恢复成功 |
| 7.10.1 | 1.0.0 | 索引文档一致,别名恢复成功 |
| 7.10.0 | 1.0.0 | 索引文档一致,别名恢复成功 |
| 7.9.2 | 1.0.0 | 索引文档一致,别名恢复成功 |
| 7.9.0 | 1.0.0 | 索引文档一致,别名恢复成功 |
| 7.8.1 | 1.0.0 | 索引文档一致,别名恢复成功 |
| 7.5.2 | 1.0.0 | 索引文档一致,别名恢复成功 |
| 6.8.12 | 1.0.0 | 索引文档一致,别名恢复成功 |
| 6.5.4 | 1.0.0 | 索引文档一致,别名恢复成功 |
关于 Easysearch

INFINI Easysearch 是一个分布式的近实时搜索与分析引擎,核心引擎基于开源的 Apache Lucene。 Easysearch 衍生自基于开源协议 Apache 2.0 的 Elasticsearch 7.10 版本。 Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本,并继续完善和支持更多的企业级功能。 与 Elasticsearch 相比,Easysearch 更关注在搜索业务场景的优化和继续保持其产品的简洁与易用性。
详情参见:[官方文档](https://www.infinilabs.com/doc ... erview)
- dump_hash: #dump es1's doc
- dag:
- name: source
seqNo新建文档时值特别大,且并发修改时大量VersionConflicEngineException
Elasticsearch • Charele 回复了问题 • 2 人关注 • 2 个回复 • 3122 次浏览 • 2023-06-27 22:58
极限科技旗下软件产品 INFINI Easysearch 通过统信 UOS 认证
Easysearch • liaosy 发表了文章 • 0 个评论 • 2977 次浏览 • 2023-06-16 17:10
近日,极限数据 (北京) 科技有限公司(以下简称:极限科技)旗下的软件 INFINI Easysearch 搜索引擎软件 V1.0 通过统信 UOS 服务器操作系统 V20 认证。
此次兼容适配基于统信 UOS 服务器操作系统 V20,联合国产 CPU:海光 5000、海光 7000、兆芯 KH-30000、兆芯 KH20000、兆芯 ZX-C+ 等系列处理器,经过共同严格测试表明 INFINI Easysearch 搜索引擎软件 V1.0 整体运行稳定,满足功能及兼容性测试要求,并获得通用软硬件适配认证中心联合认证证书。


统信软件是以“打造中国操作系统创新生态”为使命的中国基础软件公司。基于国产芯片架构的操作系统产品已经和龙芯、飞腾、申威、鲲鹏、兆芯、海光等芯片厂商开展了广泛和深入的合作,与国内各主流整机厂商及软件厂商展开了全方位的兼容性适配工作。

极限科技研发的 INFINI Easysearch 是一个分布式的近实时搜索与分析引擎,同时也是一款具备自主可控的分布式近实时搜索型数据库产品,具备高性能、高可用、弹性伸缩、高安全性等特性,具备支持丰富的个性化搜索及聚合分析能力,可部署在物理机、虚拟机、容器、私有云和公有云,能承载 PB 级别的海量业务数据,为金融核心系统、运营商、制造业和政企业务系统提供安全、稳定、可靠的快速检索和实时数据探索分析能力,可满足不同业务场景的各项复杂需求。
此次通过统信 UOS 的兼容适配联合认证,标志着极限科技在支持国产化方面又迈出关键一步。此外,Easysearch 也实现了对麒麟、欧拉等国产操作系统的支持。未来,极限科技将积极参与国产创新技术生态的建设,坚持自主可控安全可靠,深化对国产化软硬件技术栈的支持能力,为用户提供更加优质、稳定、高效、安全的产品与服务。
关于极限科技(INFINI Labs)

极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。
极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。
详情参见官网:[https://www.infinilabs.com](https://www.infinilabs.com)
社区日报 第1648期 (2023-06-15)
社区日报 • Se7en 发表了文章 • 0 个评论 • 2786 次浏览 • 2023-06-15 21:57
https://medium.com/%40jeevanan ... 06005
2.使用 Ingest Pipeline 在 Elasticsearch 中对数据进行预处理
https://mp.weixin.qq.com/s/kt70DSaNupcF7IsKP9YHXg
3.千呼万唤始出来 - Elastic AI助手尝鲜体验!
https://cloud.tencent.com/deve ... 96144
编辑:Se7en
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili
各位大佬有没有ES/Lucene原理和开发相关的讨论群聊
Elasticsearch • liaosy 回复了问题 • 2 人关注 • 1 个回复 • 2962 次浏览 • 2023-06-16 17:12
社区日报 第1647期 (2023-06-14)
社区日报 • kin122 发表了文章 • 0 个评论 • 2950 次浏览 • 2023-06-14 21:38
https://blog.csdn.net/UbuntuTo ... 42269
2.Elasticsearch:部署 ELSER - Elastic Learned Sparse EncoderR
https://blog.csdn.net/UbuntuTo ... 80664
3.Elasticsearch:二进制数据类型 - binary field
https://blog.csdn.net/UbuntuTo ... 52677
编辑:kin122
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili
社区日报 第1646期 (2023-06-13)
社区日报 • God_lockin 发表了文章 • 0 个评论 • 3075 次浏览 • 2023-06-13 16:26
1. ELK + KFK,日志系统搞起来!(需要梯子)
https://medium.com/%40umitulke ... f68bb
2. ELK操作备忘录(需要梯子)
https://gamzeyilan1.medium.com ... 2a1c3
3. 多数据源同步攻略(需要梯子)
https://medium.com/%40ketansom ... b5ed6
编辑:斯蒂文
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili
社区日报 第1645期 (2023-06-12)
社区日报 • yuebancanghai 发表了文章 • 0 个评论 • 2993 次浏览 • 2023-06-12 14:57
https://zhuanlan.zhihu.com/p/164970344
2. Elasticsearch shard 分配感知
https://blog.csdn.net/UbuntuTo ... 21365
3. Elasticsearch 内存占用分析及 page cache 监控
https://zhuanlan.zhihu.com/p/411417987
编辑:yuebancanghai
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili
京东数据安全JAVA招聘
求职招聘 • qinpengfei 发表了文章 • 0 个评论 • 3947 次浏览 • 2023-06-11 18:17
京东集团汇聚零售、物流、健康、科技、金融等丰富的业务场景,是国内最具影响力和正向价值的新型实体企业。我们的团队不仅负责数据安全前沿技术研究,还承担了集团各业务线的数据安全服务职责,致力于用先进、高效的技术手段消除数据安全风险,提升京东数亿用户、数百万生态合作伙伴、数十万京东体系员工的数据安全服务体验。京东平台拥有高并发、多业务的复杂场景,为技术深度优化、个人核心竞争力的形成提供了最佳实践可能。这里有多元化、讲逻辑、友爱、创新的团队,更是一块理想的实战场地,舞台广阔,欢迎有技术、有情怀的你来尽情施展,和同频的人同行,一起做有价值的事情!
岗位职责:
• 负责京东数据安全产品的系统设计,核心功能开发和维护工作;
• 对系统有整体宏观的思考,规划形成统一的平台和组件;
• 负责技术难点攻关,持续对线上系统进行性能优化及稳定性提升;
• 拆解产品需求,提出技术实现方案和步骤;
• 参与知识传播及技术分享,促进团队成员共同进步。
岗位任职要求:
• 3年以上互联网领域的设计与开发经验,具备扎实的开发基础,精通一种开发语言(Java,Go);
• 熟练掌握IO、多线程开发技术,对事务、锁、并发等实现机制有深入了解;
• 熟练使用Spring、Spring MVC等框架,并对框架原理有一定了解;
• 熟悉SOA架构,对RPC、序列化、服务治理有相应了解;
• 熟悉常用数据库软件(MySQL)的原理和使用,熟悉常用ORM和连接池组件,对数据库的优化有一定的理解;
• 熟悉计算机网络基础原理、了解常用网络通信协议;
• 热爱技术,对技术有不懈的追求,喜欢研究开源代码,良好的学习能力、团队协作能力和沟通能力。
具备以下者优先:
• 具备丰富的大型互联网系统设计经验,熟悉分布式、缓存、消息、负载均衡等机制和实现,具备海量数据研发和处理经验优先;
• 具备数据安全相关基础设施、平台的设计和研发经验者优先;
岗位亮点:
• 技术栈丰富,可参与高并发、高性能、高可用、大数据系统的开发建设,掌握各环节核心技术要素,和团队一起对系统能力进行升级和迭代;
• 接触前沿技术,可参与零信任项目,和行业大佬一起共事,日处理亿级别调用量,有机会为全公司各个业务线提供服务;
• 技术挑战性高,公司具有极其丰富的业务场景、数据场景和海量数据规模;