文章 - 搜索客，搜索人自己的社区

搜索客：Elasticsearch 中文社区的崭新征程

Elasticsearch 中文社区在不知不觉中已经走过了十二个春秋。这段时间，我们有幸因为 Elasticsearch 相识，相聚于线上线下的社区活动，共同切磋技术，互相吐槽。从最初的 QQ 群到后来的微信群，从最初几个人的小聚到后来接近千人的大会，社区的成长仿佛是一场神奇的旅程。Elasticsearch 中文社区一直保持着一种松散而亲切的组织形式，相信参与社区活动的小伙伴们都能感受到我们与其他社区的不同之处。

社区就是一个大家庭，很多小伙伴可能现在已经没有活跃在相关领域了，但是在咱们社区发展的过程中，有很多优秀的小伙伴积极参与做出了大量杰出的贡献，第一次大会的场地离不开 @三斗室的大力支持，还记得只有 20-30 号人，糙的很，连拍照都没有来得及进行，社区里面带来各种干货分享 @wood 大叔，一直在社区默默奉献的石阳，说学逗唱样样精通的斌哥，深圳分会的杨振涛，武汉分会的白凡，南京分会的李啸，广州分会的鸿智等等其他各个城市的社区分会主席们，咱们甚至台湾还有分会，还记得 Advent 分享文章接力么，还记得咱们的翻译小组么，还记得咱们一起通宵达旦编写 Elasticsearch 权威指南中文版本的的日子么， 80 多人浩浩荡荡分成 5 个团队，中国开源史上最早的大协作，咱们还有社区编辑部，现在还在坚持每天一篇相关行业新闻的社区日报社，迄今为止已经 1700 多期了，还有每次大会的志愿者们，还有给咱们社区带来几百个分享的嘉宾们，名字实在太多了，不能一一列举了，但我都记下了，这个社区正是因为有了你们，才这么精彩，感谢你们。

然而，没有哪项技术能永远保持新鲜活力，当一些技术逐渐成熟，相应的讨论似乎也变得有限。然而，搜索领域的从业者并未停止前行的脚步，每一年都有新的搜索技术涌现，今年的最火话题必然是 GenAI 或者 AIGC 啦，Embedding、LLM、向量数据库、RAG 摩拳擦掌，传统搜索是否还能再战几个回合？硬件发展也是一日千里，几百核，上 TB SSD 的机器成为常态，快速迭代的硬件架构需要与时俱进的软件架构，兼顾安全和高效的 Rust 发展也是热火朝天，我于 2021 年底离开 Elastic 出来创办了 INFINI Labs 也在积极探索下一代搜索引擎的发展，不过可以预见的是，未来的搜索必定将更加智能化，性能更加强悍，使用更加简单，相信大家和我一样我对新技术的发展充满了期待，拭目以待吧。

从业十多年来一直在围绕搜索打转，深感搜索技术所涵盖的领域极为广泛，从文本分析到从自然语言处理，从算法到数据结构，从单机高性能到海量 PB 分布式，从机器学习到大模型，从传统的运维日志分析到上天揽月的前沿科技，都有搜索技术的身影。众行致远，国外有类似 BERLIN BUZZWORDS 这样优质的大会和交流社区，而国内这样垂直且优质的社区还相对较为缺乏，希望咱们的社区能够成为这样一个专注于搜索领域的小圈子。并且应该更加开放，除了 Elasticsearch，其他任何跟搜索相关的技术和框架我们都欢迎交流，也希望国内更多和我们一样参与搜索核心技术研究的厂商和同仁们也能参与进来，并且希望在这里，不仅是可以围绕搜索的各种相关技术进行讨论交流，还能找到志同道合的朋友一起共同进步，共同构建一个咱们自己的小家园。

因此，Elasticsearch 中文社区进行全新的品牌升级，正式更名为“搜索客”，以新的 Slogan：“搜索人自己的社区” 为宣言，并以全新的面貌来迎接社区的小伙伴们，相信你们已经注意到了我们的社区网站已经更新了全新的 Logo 和视觉风格，后续调整完毕也将启用新的域名：searchkit.org/searchkit.cn。我们期望新的搜索客社区能够为广大搜索领域的从业者提供更为丰富和便捷的交流平台。希望在这里，我们能够共同见证搜索技术的新篇章，为整个搜索领域的发展添砖加瓦。

Medcl

继续阅读 »

Elasticsearch 中文社区在不知不觉中已经走过了十二个春秋。这段时间，我们有幸因为 Elasticsearch 相识，相聚于线上线下的社区活动，共同切磋技术，互相吐槽。从最初的 QQ 群到后来的微信群，从最初几个人的小聚到后来接近千人的大会，社区的成长仿佛是一场神奇的旅程。Elasticsearch 中文社区一直保持着一种松散而亲切的组织形式，相信参与社区活动的小伙伴们都能感受到我们与其他社区的不同之处。

社区就是一个大家庭，很多小伙伴可能现在已经没有活跃在相关领域了，但是在咱们社区发展的过程中，有很多优秀的小伙伴积极参与做出了大量杰出的贡献，第一次大会的场地离不开 @三斗室的大力支持，还记得只有 20-30 号人，糙的很，连拍照都没有来得及进行，社区里面带来各种干货分享 @wood 大叔，一直在社区默默奉献的石阳，说学逗唱样样精通的斌哥，深圳分会的杨振涛，武汉分会的白凡，南京分会的李啸，广州分会的鸿智等等其他各个城市的社区分会主席们，咱们甚至台湾还有分会，还记得 Advent 分享文章接力么，还记得咱们的翻译小组么，还记得咱们一起通宵达旦编写 Elasticsearch 权威指南中文版本的的日子么， 80 多人浩浩荡荡分成 5 个团队，中国开源史上最早的大协作，咱们还有社区编辑部，现在还在坚持每天一篇相关行业新闻的社区日报社，迄今为止已经 1700 多期了，还有每次大会的志愿者们，还有给咱们社区带来几百个分享的嘉宾们，名字实在太多了，不能一一列举了，但我都记下了，这个社区正是因为有了你们，才这么精彩，感谢你们。

然而，没有哪项技术能永远保持新鲜活力，当一些技术逐渐成熟，相应的讨论似乎也变得有限。然而，搜索领域的从业者并未停止前行的脚步，每一年都有新的搜索技术涌现，今年的最火话题必然是 GenAI 或者 AIGC 啦，Embedding、LLM、向量数据库、RAG 摩拳擦掌，传统搜索是否还能再战几个回合？硬件发展也是一日千里，几百核，上 TB SSD 的机器成为常态，快速迭代的硬件架构需要与时俱进的软件架构，兼顾安全和高效的 Rust 发展也是热火朝天，我于 2021 年底离开 Elastic 出来创办了 INFINI Labs 也在积极探索下一代搜索引擎的发展，不过可以预见的是，未来的搜索必定将更加智能化，性能更加强悍，使用更加简单，相信大家和我一样我对新技术的发展充满了期待，拭目以待吧。

从业十多年来一直在围绕搜索打转，深感搜索技术所涵盖的领域极为广泛，从文本分析到从自然语言处理，从算法到数据结构，从单机高性能到海量 PB 分布式，从机器学习到大模型，从传统的运维日志分析到上天揽月的前沿科技，都有搜索技术的身影。众行致远，国外有类似 BERLIN BUZZWORDS 这样优质的大会和交流社区，而国内这样垂直且优质的社区还相对较为缺乏，希望咱们的社区能够成为这样一个专注于搜索领域的小圈子。并且应该更加开放，除了 Elasticsearch，其他任何跟搜索相关的技术和框架我们都欢迎交流，也希望国内更多和我们一样参与搜索核心技术研究的厂商和同仁们也能参与进来，并且希望在这里，不仅是可以围绕搜索的各种相关技术进行讨论交流，还能找到志同道合的朋友一起共同进步，共同构建一个咱们自己的小家园。

因此，Elasticsearch 中文社区进行全新的品牌升级，正式更名为“搜索客”，以新的 Slogan：“搜索人自己的社区” 为宣言，并以全新的面貌来迎接社区的小伙伴们，相信你们已经注意到了我们的社区网站已经更新了全新的 Logo 和视觉风格，后续调整完毕也将启用新的域名：searchkit.org/searchkit.cn。我们期望新的搜索客社区能够为广大搜索领域的从业者提供更为丰富和便捷的交流平台。希望在这里，我们能够共同见证搜索技术的新篇章，为整个搜索领域的发展添砖加瓦。

Medcl 收起阅读 »

社区日报第1736期 (2023-11-13)

1. Elasticsearch 8.11 ES|QL 初体验
https://mp.weixin.qq.com/s/GCcmBixIvOjblkHZiAGXCw
2. Elasticsearch 性能监控
https://blog.csdn.net/mingongg ... 98538
3. Elasticsearch分片数量选择及如何保证数据一致性
https://blog.csdn.net/github_3 ... 83971
编辑：yuebancanghai
归档：https://ela.st/cn-daily-all
订阅：https://ela.st/cn-daily-sub
沙龙：https://ela.st/cn-meetup
B站：https://ela.st/bilibili

继续阅读 »

社区日报第1735期 (2023-11-10）

1、Elasticsearch 8.11 信特性
https://www.elastic.co/fr/blog ... -11-0

2、Elasticsearch ES|QL 牛在哪里

https://www.elastic.co/cn/blog ... guage

3、Elasticsearch 向量检索视频解读（梯子）
https://www.elastic.co/cn/vide ... earch

编辑：铭毅天下
归档：https://ela.st/cn-daily-all
订阅：https://ela.st/cn-daily-sub
沙龙：https://ela.st/cn-meetup
B站： https://ela.st/bilibili

继续阅读 »

社区日报第1734期 (2023-11-09）

1.给 Elasticsearch 加上向量检索能力，支撑大模型场景需求
https://mp.weixin.qq.com/s/tU9nN7AOFJs13QazPLfKJA
2.使用 Elastic Beat 采集 Prometheus 数据（需要梯子）
https://thomasdecaux.medium.co ... 1fedd
3.ES|QL（Elasticsearch 查询语言）入门
https://www.elastic.co/blog/ge ... guage

编辑：Se7en
归档：https://ela.st/cn-daily-all
订阅：https://ela.st/cn-daily-sub
沙龙：https://ela.st/cn-meetup
B站： https://ela.st/bilibili

继续阅读 »

社区日报第1733期 (2023-11-08）

1.ES json数据格式的转换（需要梯子）
https://medium.com/%40andre.lu ... 0c055
2.Elasticsearch：搜索架构
https://elasticstack.blog.csdn ... 44073
3.Elasticsearch：处理 Elasticsearch 中的字段名称不一致
https://elasticstack.blog.csdn ... 75664

编辑：kin122
归档：https://ela.st/cn-daily-all
订阅：https://ela.st/cn-daily-sub
沙龙：https://ela.st/cn-meetup
B站：https://ela.st/bilibili

继续阅读 »

从白日梦到现实：推出 Elastic 的管道查询语言 ES|QL

原文：https://elasticstack.blog.csdn ... 86439

!(https://img-blog.csdnimg.cn/a5 ... 63.png)

今天，我们很高兴地宣布 Elastic® 的新管道查询语言 [ES|QL](https://www.elastic.co/guide/e ... .html "ES|QL")（Elasticsearch 查询语言）的技术预览版，它可以转换、丰富和简化数据调查。 ES|QL 由新的查询引擎提供支持，通过并发处理提供高级搜索功能，无论数据源和结构如何，都可以提高速度和效率。通过在单个屏幕上创建聚合和可视化来快速解决问题，以实现迭代和流畅的工作流程。

ES|QL 介绍

Elasticsearch 的演变
-----------------

在过去 13 年中，[Elasticsearch®](https://www.elastic.co/elasticsearch/ "Elasticsearch®") 取得了显着发展，适应了用户需求和不断变化的数字环境。 Elasticsearch 最初用于全文搜索，后来根据用户反馈扩展到支持更广泛的用例。在整个过程中，Elasticsearch [Query DSL](https://www.elastic.co/guide/e ... .html "Query DSL")（我们第一个采用的搜索语言）为过滤器、聚合和其他操作提供了丰富的查询集。这种基于 JSON 的 DSL 最终成为我们 [_search](https://www.elastic.co/guide/e ... .html "_search") API 端点的基础。

随着时间的推移和需求的多样化，逐渐显现出用户需要的不仅仅是查询 DSL 所提供的功能。我们开始在查询 DSL 下引入和融合了其他 DSL，用于[脚本编写](https://www.elastic.co/guide/e ... .html "脚本编写")、安全调查中的[事件](https://www.elastic.co/guide/e ... .html "事件")等等。然而，尽管这些扩展功能非常多才多艺，它们并没有完全满足用户的一些需求。

用户想要一种能够：

* 简化威胁和安全调查，同时通过提供全面和迭代方法的单个查询观察和解决生产问题
* 通过单一界面搜索、丰富、聚合和可视化更多内容来简化数据调查
* 使用高级搜索功能（例如带有并发处理的查找）提高查询大量数据的速度和效率，无论来源和结构如何

更多阅读，请点击 https://elasticstack.blog.csdn ... 86439

继续阅读 »

原文：https://elasticstack.blog.csdn ... 86439

!(https://img-blog.csdnimg.cn/a5 ... 63.png)

今天，我们很高兴地宣布 Elastic® 的新管道查询语言 [ES|QL](https://www.elastic.co/guide/e ... .html "ES|QL")（Elasticsearch 查询语言）的技术预览版，它可以转换、丰富和简化数据调查。 ES|QL 由新的查询引擎提供支持，通过并发处理提供高级搜索功能，无论数据源和结构如何，都可以提高速度和效率。通过在单个屏幕上创建聚合和可视化来快速解决问题，以实现迭代和流畅的工作流程。

ES|QL 介绍

Elasticsearch 的演变
-----------------

在过去 13 年中，[Elasticsearch®](https://www.elastic.co/elasticsearch/ "Elasticsearch®") 取得了显着发展，适应了用户需求和不断变化的数字环境。 Elasticsearch 最初用于全文搜索，后来根据用户反馈扩展到支持更广泛的用例。在整个过程中，Elasticsearch [Query DSL](https://www.elastic.co/guide/e ... .html "Query DSL")（我们第一个采用的搜索语言）为过滤器、聚合和其他操作提供了丰富的查询集。这种基于 JSON 的 DSL 最终成为我们 [_search](https://www.elastic.co/guide/e ... .html "_search") API 端点的基础。

随着时间的推移和需求的多样化，逐渐显现出用户需要的不仅仅是查询 DSL 所提供的功能。我们开始在查询 DSL 下引入和融合了其他 DSL，用于[脚本编写](https://www.elastic.co/guide/e ... .html "脚本编写")、安全调查中的[事件](https://www.elastic.co/guide/e ... .html "事件")等等。然而，尽管这些扩展功能非常多才多艺，它们并没有完全满足用户的一些需求。

用户想要一种能够：

* 简化威胁和安全调查，同时通过提供全面和迭代方法的单个查询观察和解决生产问题
* 通过单一界面搜索、丰富、聚合和可视化更多内容来简化数据调查
* 使用高级搜索功能（例如带有并发处理的查找）提高查询大量数据的速度和效率，无论来源和结构如何

更多阅读，请点击 https://elasticstack.blog.csdn ... 86439 收起阅读 »

社区日报第1732期 (2023-11-07）

1. K8S里的日志处理，这次我想试试EFK（需要梯子）
https://medium.com/%40kishorch ... c5e84

2. 你看到的相关性分数，你看不到的核心库 —— lucene（需要梯子）
https://medium.com/%40josemamg ... 95a09

3. prometheus VS ES 全家监控和日志分析的巅峰对决（需要梯子）
https://medium.com/cloud-nativ ... 791cd

编辑：斯蒂文
归档：https://ela.st/cn-daily-all
订阅：https://ela.st/cn-daily-sub
沙龙：https://ela.st/cn-meetup
B站： https://ela.st/bilibili

继续阅读 »

社区日报第1731期 (2023-11-06)

1. Elasticsearch 8.X 如何生成 TB 级的测试数据
https://mp.weixin.qq.com/s/_WSMVB6fj8-89nRbBb8ELw
2. Elasticsearch高性能优化实践
https://blog.csdn.net/fanshuku ... 39803
3. ElasticSearch线程池设置以及EsRejectedExcutionException排查
https://blog.51cto.com/u_14014612/6004450
编辑：yuebancanghai
归档：https://ela.st/cn-daily-all
订阅：https://ela.st/cn-daily-sub
沙龙：https://ela.st/cn-meetup
B站：https://ela.st/bilibili

继续阅读 »

社区日报第1730期 (2023-11-03）

1、Elasticsearch 实现语义搜索
https://heidloff.net/article/s ... arch/

2、Elasticsearch 实现相似文档检索
https://www.prakashbhandari.co ... arch/

3、Elasticsearch 实现混合搜索
https://heidloff.net/article/h ... ctor/

编辑：铭毅天下
归档：https://ela.st/cn-daily-all
订阅：https://ela.st/cn-daily-sub
沙龙：https://ela.st/cn-meetup
B站： https://ela.st/bilibili

继续阅读 »

INFINI Labs 产品更新 | Agent 全新重构，优化指标采集，支持集中配置管理，支持动态下发等功能

INFINI Labs 产品又更新啦~

本次更新主要有 Agent、Console、Loadgen 等产品，其中 Agent 进行全新重构升级，新版限制了 CPU 资源消耗，优化了内存，相比旧版内存使用率降低 10 倍，极大的降低了对宿主服务器资源占用的压力。同时 Agent 还优化了指标采集，支持集中配置管理，支持动态下发，支持一键安装和自动注册到 Console，可通过 Console 集中管理，并进行关联集群和节点。

以下是本次更新的详细说明。

INFINI Agent v0.7.0

INFINI Agent 是 INFINI Console 的一个可选探针组件，负责采集和上传集群指标和日志等信息，并可通过 Console 管理。Agent 支持主流操作系统和平台，安装包轻量且无任何外部依赖，可以快速方便地安装。

探针 Agent 本次更新如下：

Features

限制探针资源消耗，限制 CPU 的使用
优化探针内存使用，10 倍降低
支持集中配置管理，支持动态下发
支持探针一键安装和自动注册
优化节点指标采集，仅采集本节点指标

Improvements

重构节点统计信息
删除未使用的文件
添加发现未知节点的 API
重构节点发现
重构新的 API

INFINI Console v1.10.0

INFINI Console 是一款非常轻量级的多集群、跨版本的搜索基础设施统一管控平台。通过对流行的搜索引擎基础设施进行跨版本、多集群的集中纳管，企业可以快速方便的统一管理企业内部的不同版本的多套搜索集群。

Console 在线体验： http://demo.infini.cloud (用户名/密码：readonly/readonly)。

探针管理

新版 Agent 安装好之后可在 Console 探针管理界面集中纳管，支持发现 ES 进程和疑似 ES 进程，并支持手动和自动批量关联到集群。如下图所示：

实例动态配置

Console 网关实例模块新增配置管理功能，支持实例配置内容查看和修改，修改后的配置支持自动加载生效，无需再去手动重启实例。如下图所示：

集群动态

集群动态界面进行了优化，新增了筛选过滤、时序图等。如下图所示：

Console 本次更新详细清单如下：

Features

重构探针注册流程
合并精简冗余接口
支持实例的配置查看和动态修改
允许准入和移除探针
监控新增分片级别指标
节点级别添加线程池相关指标

Bug fix

修复数据迁移/校验任务列表状态显示异常的问题
修复数据探索索引选择列表数据不完整的问题
修复开发工具集群列表找不到集群的问题
修复监控告警详情点击后查询的数据未包含告警时间点产生的数据问题

Improvements

优化数据迁移/校验任务剩余时间显示
数据探索查询数据支持自定超时时间
数据探索字段 TOP5 统计的总数调整为当前时间范围内的文档数
监控指标支持自定义时间桶的大小
数据检验任务添加导出文档数提示信息
优化集群，网关注册输入框，自动去除两边空格
完善探针探测未知 ES 节点的流程
优化探针安装脚本，新增远程配置服务器参数
优化集群动态界面，新增筛选过滤、时序图等
优化集群管理界面，新增筛选过滤

INFINI Loadgen v1.8.0

INFINI Loadgen 是一款支持 Easysearch、Elasticsearch 等搜索引擎压测工具，其特点轻量级无依赖、性能强劲、支持高并发、支持模板化参数随机、支持压测端均衡流量控制等。

Loadgen 本次更新如下：

Breaking changes

原 Loadrun 功能并入 Loadgen
测试请求、断言等使用新的 Loadgen DSL 语法来配置

下载地址：https://release.infinilabs.com/loadgen

期待反馈

欢迎下载体验使用，如果您在使用过程中遇到如何疑问或者问题，欢迎前往 INFINI Labs Github（https://github.com/infinilabs）中的对应项目中提交 Feature Request 或提交 Bug。

INFINI Gateway： https://github.com/infinilabs/gateway/issues
INFINI Console： https://github.com/infinilabs/console/issues
下载地址： https://www.infinilabs.com/download

您还可以通过邮件联系我们：hello@infini.ltd

或者拨打我们的热线电话：(+86) 400-139-9200

欢迎加入 Discord 聊天室：https://discord.com/invite/4tKTMkkvVX

也欢迎大家微信扫码添加小助手（INFINI-Labs），加入用户群一起讨论交流。

联系我们

关于极限科技（INFINI Labs）

极限科技，全称极限数据（北京）科技有限公司，是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室（INFINI Labs）致力于打造极致易用的数据探索与分析体验。

极限科技是一支年轻的团队，采用天然分布式的方式来进行远程协作，员工分布在全球各地，希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选，为中国技术品牌输出添砖加瓦。

官网：https://www.infinilabs.com

继续阅读 »

INFINI Labs 产品又更新啦~

本次更新主要有 Agent、Console、Loadgen 等产品，其中 Agent 进行全新重构升级，新版限制了 CPU 资源消耗，优化了内存，相比旧版内存使用率降低 10 倍，极大的降低了对宿主服务器资源占用的压力。同时 Agent 还优化了指标采集，支持集中配置管理，支持动态下发，支持一键安装和自动注册到 Console，可通过 Console 集中管理，并进行关联集群和节点。

以下是本次更新的详细说明。

INFINI Agent v0.7.0

INFINI Agent 是 INFINI Console 的一个可选探针组件，负责采集和上传集群指标和日志等信息，并可通过 Console 管理。Agent 支持主流操作系统和平台，安装包轻量且无任何外部依赖，可以快速方便地安装。

探针 Agent 本次更新如下：

Features

限制探针资源消耗，限制 CPU 的使用
优化探针内存使用，10 倍降低
支持集中配置管理，支持动态下发
支持探针一键安装和自动注册
优化节点指标采集，仅采集本节点指标

Improvements

重构节点统计信息
删除未使用的文件
添加发现未知节点的 API
重构节点发现
重构新的 API

INFINI Console v1.10.0

INFINI Console 是一款非常轻量级的多集群、跨版本的搜索基础设施统一管控平台。通过对流行的搜索引擎基础设施进行跨版本、多集群的集中纳管，企业可以快速方便的统一管理企业内部的不同版本的多套搜索集群。

Console 在线体验： http://demo.infini.cloud (用户名/密码：readonly/readonly)。

探针管理

新版 Agent 安装好之后可在 Console 探针管理界面集中纳管，支持发现 ES 进程和疑似 ES 进程，并支持手动和自动批量关联到集群。如下图所示：

实例动态配置

Console 网关实例模块新增配置管理功能，支持实例配置内容查看和修改，修改后的配置支持自动加载生效，无需再去手动重启实例。如下图所示：

集群动态

集群动态界面进行了优化，新增了筛选过滤、时序图等。如下图所示：

Console 本次更新详细清单如下：

Features

重构探针注册流程
合并精简冗余接口
支持实例的配置查看和动态修改
允许准入和移除探针
监控新增分片级别指标
节点级别添加线程池相关指标

Bug fix

修复数据迁移/校验任务列表状态显示异常的问题
修复数据探索索引选择列表数据不完整的问题
修复开发工具集群列表找不到集群的问题
修复监控告警详情点击后查询的数据未包含告警时间点产生的数据问题

Improvements

优化数据迁移/校验任务剩余时间显示
数据探索查询数据支持自定超时时间
数据探索字段 TOP5 统计的总数调整为当前时间范围内的文档数
监控指标支持自定义时间桶的大小
数据检验任务添加导出文档数提示信息
优化集群，网关注册输入框，自动去除两边空格
完善探针探测未知 ES 节点的流程
优化探针安装脚本，新增远程配置服务器参数
优化集群动态界面，新增筛选过滤、时序图等
优化集群管理界面，新增筛选过滤

INFINI Loadgen v1.8.0

INFINI Loadgen 是一款支持 Easysearch、Elasticsearch 等搜索引擎压测工具，其特点轻量级无依赖、性能强劲、支持高并发、支持模板化参数随机、支持压测端均衡流量控制等。

Loadgen 本次更新如下：

Breaking changes

原 Loadrun 功能并入 Loadgen
测试请求、断言等使用新的 Loadgen DSL 语法来配置

下载地址：https://release.infinilabs.com/loadgen

期待反馈

欢迎下载体验使用，如果您在使用过程中遇到如何疑问或者问题，欢迎前往 INFINI Labs Github（https://github.com/infinilabs）中的对应项目中提交 Feature Request 或提交 Bug。

INFINI Gateway： https://github.com/infinilabs/gateway/issues
INFINI Console： https://github.com/infinilabs/console/issues
下载地址： https://www.infinilabs.com/download

您还可以通过邮件联系我们：hello@infini.ltd

或者拨打我们的热线电话：(+86) 400-139-9200

欢迎加入 Discord 聊天室：https://discord.com/invite/4tKTMkkvVX

也欢迎大家微信扫码添加小助手（INFINI-Labs），加入用户群一起讨论交流。

联系我们

关于极限科技（INFINI Labs）

极限科技，全称极限数据（北京）科技有限公司，是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室（INFINI Labs）致力于打造极致易用的数据探索与分析体验。

极限科技是一支年轻的团队，采用天然分布式的方式来进行远程协作，员工分布在全球各地，希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选，为中国技术品牌输出添砖加瓦。

官网：https://www.infinilabs.com

收起阅读 »

社区日报第1729期 (2023-11-02）

1.Elasticsearch最佳实践：不同版本之间的存储成本对比
https://cloud.tencent.com/deve ... 51489
2.Elasticsearch最佳实践：通过调优来节省日志和指标存储成本
https://cloud.tencent.com/deve ... 51952
3.系统设计系列：Elasticsearch 搜索架构（需要梯子）
https://betterprogramming.pub/ ... 60463

编辑：Se7en
归档：https://ela.st/cn-daily-all
订阅：https://ela.st/cn-daily-sub
沙龙：https://ela.st/cn-meetup
B站： https://ela.st/bilibili

继续阅读 »

社区日报第1728期 (2023-11-01）

1.我是如何把 Elasticsearch 索引性能压榨到极致的……
https://mp.weixin.qq.com/s/qZaQfQq4Rwq5kmKKVGwOAQ
2.Elasticsearch：使用 Elasticsearch 进行词汇和语义搜索
https://blog.csdn.net/UbuntuTo ... 11585
3.Elasticsearch线程池
https://zhuanlan.zhihu.com/p/397436075

编辑：kin122
归档：https://ela.st/cn-daily-all
订阅：https://ela.st/cn-daily-sub
沙龙：https://ela.st/cn-meetup
B站：https://ela.st/bilibili

继续阅读 »

Easysearch 容量规划建议

你是否还在纠结怎么规划 Easysearch 集群存储容量，这篇文章将从容量估算、搜索吞吐量估算等场景为你提供详细的规划建议。

基于容量估算

主要问题：

每天将索引多少原始数据（GB）？保留数据多少天？
原始数据膨胀率
您将强制执行多少个副本分片？
您将为每个数据节点分配多少内存？
您的内存:数据比例是多少？

原则

保留 +15% 以保持在磁盘水位以下。
保留 +5% 用于误差和后台活动的余量。
保留相当于一个数据节点的资源来处理故障。

公式：

总数据量 GB = 原始数据 GB/天 * 保留天数 * 膨胀率 * (副本数 + 1)

总存储 GB = 总数据 GB * 1.15（包括磁盘 watermark threshold 和误差范围）

总数据节点数 = ROUNDUP(总存储 GB / (每个数据节点的内存 * 内存/数据比例)) + 1（用于故障转移）

举例：

假设需要存储的源数据 50TB 大小

膨胀率 10% 副本数 1

每个节点 256G 内存

计算出：

总数据量 TB

= 50TB * (1 + 0.10) * (1 + 1)

= 110TB

总存储 TB

= 110TB * 1.15（考虑磁盘 watermark threshold 和误差范围）

= 126.5TB

如果有 256GB 的物理内存，128GB 会用于 JVM 堆，剩下的 128GB 将用于操作系统、文件缓存和其他系统进程。

按照常见的 1:30 的 RAM 到磁盘比例来计算，那么每个节点能处理的数据存储大约是：

256GB 内存 * 30 = 7680GB，大约等于 7.68TB

总数据节点数

= ROUNDUP(126.5TB / 7.68TB) + 1（用于故障转移）

= ROUNDUP(16.47) + 1

= 18

基于搜索吞吐量估算

在存储容量层面之外，还要考虑搜索响应时间和搜索吞吐量的目标，这些目标可能需要更多的内存和计算资源。

搜索响应时间受太多变量的影响，无法预测任何给定容量计划会如何影响它。但通过经验性测试搜索响应时间并估计预期的搜索吞吐量，我们可以估算出满足这些需求所需的集群资源。

主要问题：

你每秒的最高搜索次数是多少？
你的平均搜索响应时间（毫秒）是多少？
你的数据节点上有多少个核心和每个核心有多少个线程

经验方法：

与其确定资源将如何影响搜索速度，不如将搜索速度视为一个常数，通过在计划的硬件上进行测量来处理。然后确定集群需要多少个核心来处理预期的搜索吞吐量峰值。最终目标是防止线程池队列增长速度超过它们被消耗的速度。如果计算资源不足，搜索请求有被丢弃的风险。

公式：

峰值线程数 = 向上取整（每秒的峰值搜索次数 * 平均搜索响应时间（毫秒） / 1000 毫秒）

线程池大小 = 向上取整（（每个节点的物理核心数 * 每个核心的线程数 * 3 / 2） + 1）

总数据节点数 = 向上取整（峰值线程数 / 线程池大小）

举例：

假设每秒 2 万搜索请求，平均响应时间 50 毫秒，每个节点有 16 个线程数，计算需要多少节点

峰值线程数 = 20000 * 50 /1000 = 1000

线程池大小 = (16 * 1 * 3/2) + 1 = 25

总数据节点数 = 1000 / 25 = 40

大概需要 40 个数据节点来处理每秒 2 万的搜索请求，平均响应时间为 50 毫秒，每个节点有 16 个线程。这是一个粗略的估计，实际需求可能会因多种因素而有所不同。建议进行实际测试以确认这些数字。

Hot, Warm, Frozen

根据索引使用情况不同，通常分为种存储。这是一种经济高效的方法，用于存储大量数据，同时优化了对较新数据的性能。在容量规划期间，每个层次必须独立进行规模确定，然后进行合并。

层面	目标	示例存储	示例内存：存储比
Hot	搜索为主	SSD DAS/SAN (>200Gb/s)	1:30
Warm	存储为主	HDD DAS/SAN (~100Gb/s)	1:100
Frozen	存档为主	Cheapest DAS/SAN (<100Gb/s)	1:500

实际情况要把搜索吞吐量估算和容量估算结合考虑。

关于 Easysearch

INFINI Easysearch 是一个分布式的近实时搜索与分析引擎，核心引擎基于开源的 Apache Lucene。Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本，并继续完善和支持更多的企业级功能。与 Elasticsearch 相比，Easysearch 更关注在搜索业务场景的优化和继续保持其产品的简洁与易用性。

官网文档：https://www.infinilabs.com/docs/latest/easysearch

下载地址：https://www.infinilabs.com/download

原文：https://www.infinilabs.com/blog/2023/capacity-planning-recommendations-for-easysearch/

继续阅读 »

你是否还在纠结怎么规划 Easysearch 集群存储容量，这篇文章将从容量估算、搜索吞吐量估算等场景为你提供详细的规划建议。

基于容量估算

主要问题：

每天将索引多少原始数据（GB）？保留数据多少天？
原始数据膨胀率
您将强制执行多少个副本分片？
您将为每个数据节点分配多少内存？
您的内存:数据比例是多少？

原则

保留 +15% 以保持在磁盘水位以下。
保留 +5% 用于误差和后台活动的余量。
保留相当于一个数据节点的资源来处理故障。

公式：

总数据量 GB = 原始数据 GB/天 * 保留天数 * 膨胀率 * (副本数 + 1)

总存储 GB = 总数据 GB * 1.15（包括磁盘 watermark threshold 和误差范围）

总数据节点数 = ROUNDUP(总存储 GB / (每个数据节点的内存 * 内存/数据比例)) + 1（用于故障转移）

举例：

假设需要存储的源数据 50TB 大小

膨胀率 10% 副本数 1

每个节点 256G 内存

计算出：

总数据量 TB

= 50TB * (1 + 0.10) * (1 + 1)

= 110TB

总存储 TB

= 110TB * 1.15（考虑磁盘 watermark threshold 和误差范围）

= 126.5TB

如果有 256GB 的物理内存，128GB 会用于 JVM 堆，剩下的 128GB 将用于操作系统、文件缓存和其他系统进程。

按照常见的 1:30 的 RAM 到磁盘比例来计算，那么每个节点能处理的数据存储大约是：

256GB 内存 * 30 = 7680GB，大约等于 7.68TB

总数据节点数

= ROUNDUP(126.5TB / 7.68TB) + 1（用于故障转移）

= ROUNDUP(16.47) + 1

= 18

基于搜索吞吐量估算

在存储容量层面之外，还要考虑搜索响应时间和搜索吞吐量的目标，这些目标可能需要更多的内存和计算资源。

搜索响应时间受太多变量的影响，无法预测任何给定容量计划会如何影响它。但通过经验性测试搜索响应时间并估计预期的搜索吞吐量，我们可以估算出满足这些需求所需的集群资源。

主要问题：

你每秒的最高搜索次数是多少？
你的平均搜索响应时间（毫秒）是多少？
你的数据节点上有多少个核心和每个核心有多少个线程

经验方法：

与其确定资源将如何影响搜索速度，不如将搜索速度视为一个常数，通过在计划的硬件上进行测量来处理。然后确定集群需要多少个核心来处理预期的搜索吞吐量峰值。最终目标是防止线程池队列增长速度超过它们被消耗的速度。如果计算资源不足，搜索请求有被丢弃的风险。

公式：

峰值线程数 = 向上取整（每秒的峰值搜索次数 * 平均搜索响应时间（毫秒） / 1000 毫秒）

线程池大小 = 向上取整（（每个节点的物理核心数 * 每个核心的线程数 * 3 / 2） + 1）

总数据节点数 = 向上取整（峰值线程数 / 线程池大小）

举例：

假设每秒 2 万搜索请求，平均响应时间 50 毫秒，每个节点有 16 个线程数，计算需要多少节点

峰值线程数 = 20000 * 50 /1000 = 1000

线程池大小 = (16 * 1 * 3/2) + 1 = 25

总数据节点数 = 1000 / 25 = 40

大概需要 40 个数据节点来处理每秒 2 万的搜索请求，平均响应时间为 50 毫秒，每个节点有 16 个线程。这是一个粗略的估计，实际需求可能会因多种因素而有所不同。建议进行实际测试以确认这些数字。

Hot, Warm, Frozen

根据索引使用情况不同，通常分为种存储。这是一种经济高效的方法，用于存储大量数据，同时优化了对较新数据的性能。在容量规划期间，每个层次必须独立进行规模确定，然后进行合并。

层面	目标	示例存储	示例内存：存储比
Hot	搜索为主	SSD DAS/SAN (>200Gb/s)	1:30
Warm	存储为主	HDD DAS/SAN (~100Gb/s)	1:100
Frozen	存档为主	Cheapest DAS/SAN (<100Gb/s)	1:500

实际情况要把搜索吞吐量估算和容量估算结合考虑。

关于 Easysearch

INFINI Easysearch 是一个分布式的近实时搜索与分析引擎，核心引擎基于开源的 Apache Lucene。Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本，并继续完善和支持更多的企业级功能。与 Elasticsearch 相比，Easysearch 更关注在搜索业务场景的优化和继续保持其产品的简洁与易用性。

官网文档：https://www.infinilabs.com/docs/latest/easysearch

下载地址：https://www.infinilabs.com/download

原文：https://www.infinilabs.com/blog/2023/capacity-planning-recommendations-for-easysearch/

收起阅读 »

社区日报第1727期 (2023-10-31)

1. 基于ElasticSearch的向量检索技术实践
https://zhuanlan.zhihu.com/p/620260383
2. Elasticsearch跨集群复制（CCR）介绍
https://blog.csdn.net/sinat_32 ... 43366
3. 重构实践：基于腾讯云Elasticsearch搭建QQ邮箱全文检索
https://zhuanlan.zhihu.com/p/272209132
编辑：yuebancanghai
归档：https://ela.st/cn-daily-all
订阅：https://ela.st/cn-daily-sub
沙龙：https://ela.st/cn-meetup
B站：https://ela.st/bilibili

继续阅读 »

社区日报第1726期 (2023-10-30）

1. 用filebeats和logstash构建日志投递pipeline（需要梯子）
https://medium.com/%40lopchann ... 4c0ad

2. 在ES中通过向量嵌入做语义搜索（需要梯子）
https://medium.com/%40mickey.l ... fac92

3. 微服务架构中的缓存设计思路（需要梯子）
https://medium.com/hexaworks-p ... 8655d

编辑：斯蒂文
归档：https://ela.st/cn-daily-all
订阅：https://ela.st/cn-daily-sub
沙龙：https://ela.st/cn-meetup
B站： https://ela.st/bilibili

继续阅读 »

INFINI Agent v0.7.0

Features

Improvements

INFINI Console v1.10.0

Features

Bug fix

Improvements

INFINI Loadgen v1.8.0

Breaking changes

期待反馈

关于极限科技（INFINI Labs）

INFINI Agent v0.7.0

Features

Improvements

INFINI Console v1.10.0

Features

Bug fix

Improvements

INFINI Loadgen v1.8.0

Breaking changes

期待反馈

关于极限科技（INFINI Labs）

基于容量估算

主要问题：

原则

公式：

举例：

总数据量 TB

总存储 TB

总数据节点数

基于搜索吞吐量估算

主要问题：

经验方法：

公式：

举例：

Hot, Warm, Frozen

关于 Easysearch

基于容量估算

主要问题：

原则

公式：

举例：

总数据量 TB

总存储 TB

总数据节点数

基于搜索吞吐量估算

主要问题：

经验方法：

公式：

举例：

Hot, Warm, Frozen

关于 Easysearch

活动推荐

热门文章

热门话题