社区日报 第1635期 (2023-05-26)
社区日报 • laoyang360 发表了文章 • 0 个评论 • 3341 次浏览 • 2023-05-26 08:18
1、Elasticsearch — 搜索的解决方案(梯子)
https://blog.devgenius.io/elas ... 0c82f
2、管理Elasticsearch索引的最佳实践(梯子)
https://logz.io/blog/managing- ... ices/
3、在几分钟内将大数据集(>10M)索引到Elastic Search中(梯子)
https://blog.changecx.com/inde ... 53163
编辑:铭毅天下
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili
社区日报 第1634期 (2023-05-25)
社区日报 • Se7en 发表了文章 • 0 个评论 • 2390 次浏览 • 2023-05-25 07:14
https://dev.to/strapi/how-to-s ... -3nnc
2.使用 React 和 ElasticSearch 搭建一个 Airbnb
https://hackernoon.com/how-to- ... 73yna
3.Manticore Search, Elasticsearch, ClickHouse 性能测试
https://hackernoon.com/analyzi ... -news
编辑:Se7en
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili
社区日报 第1633期 (2023-05-24)
社区日报 • kin122 发表了文章 • 0 个评论 • 2115 次浏览 • 2023-05-24 15:23
https://lazypro.medium.com/boo ... 114bc
2.Elasticsearch:使用 query_string 查询的短语及模糊查询
https://blog.csdn.net/UbuntuTo ... 76683
3.去理解一下 apache lucene 的存储系统(需要梯子)
https://medium.com/%40vaibhavk ... 6e230
编辑:kin122
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili
社区日报 第1632期 (2023-05-23)
社区日报 • God_lockin 发表了文章 • 0 个评论 • 2334 次浏览 • 2023-05-23 15:10
1. ES 知识点串讲(6)路由(需要梯子)
https://braineanear.medium.com ... 390d7
2. 奈飞的数据资产管理系统想了解一下吗?(需要梯子)
https://netflixtechblog.com/da ... c35c9
3. 华为云里装ELK有啥特别的吗?(需要梯子)
https://medium.com/huawei-deve ... dd806
编辑:斯蒂文
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili
社区日报 第1631期 (2023-05-22)
社区日报 • yuebancanghai 发表了文章 • 0 个评论 • 3552 次浏览 • 2023-05-22 10:59
https://mp.weixin.qq.com/s/YtCAIODjKNdyURnjisERsA
2. Elasticsearch 生产数据备份恢复
https://zhuanlan.zhihu.com/p/147705038
3. 使用Kibana 进行Elasticsearch 8.2.2数据备份
https://blog.csdn.net/weixin_4 ... 83675
编辑:yuebancanghai
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili
es8.5.3版本使用ElasticsearchClient客户端ReindexRequest操作报错
Elasticsearch • mryu 回复了问题 • 2 人关注 • 1 个回复 • 3109 次浏览 • 2023-10-07 12:01
使用RestHighLevelClient获取Cluster setting信息BLOCK死锁【已解决】
回复Elasticsearch • yangjianxuan 回复了问题 • 1 人关注 • 6 个回复 • 3252 次浏览 • 2023-05-20 10:55
es中json转QueryBuilder
回复Elasticsearch • adsreach 回复了问题 • 1 人关注 • 1 个回复 • 2779 次浏览 • 2023-05-19 14:01
请教各位一个ES关于nested检索问题
Elasticsearch • adsreach 回复了问题 • 1 人关注 • 1 个回复 • 2313 次浏览 • 2023-05-18 19:54
社区日报 第1630期 (2023-05-18)
社区日报 • Se7en 发表了文章 • 0 个评论 • 2154 次浏览 • 2023-05-18 09:42
https://medium.com/naukri-engi ... 47181
2.Prometheus 监控 Elasticsearch 的主要指标
https://dev.to/sysdig/top-metr ... -3pca
3.如何使用 Elasticsearch 在零售业创造卓越的用户体验
https://dev.to/egeninc/how-to- ... l-4c3
编辑:Se7en
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili
社区日报 第1629期 (2023-05-17)
社区日报 • kin122 发表了文章 • 0 个评论 • 3250 次浏览 • 2023-05-17 17:23
https://cloud.tencent.com/deve ... 66781
2.Elasticsearch:Standard Text Analyzer - 标准文本分析器
https://elasticstack.blog.csdn ... 78016
3.Elasticsearch:NLP 和 Elastic:入门
https://elasticstack.blog.csdn ... 91484
编辑:kin122
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili
社区日报 第1628期 (2023-05-16)
社区日报 • God_lockin 发表了文章 • 0 个评论 • 2724 次浏览 • 2023-05-16 12:08
1. ES 知识点串讲(3)分片与拓展(需要梯子)
https://braineanear.medium.com ... 6321f
2. ES 知识点串讲(4)副本(需要梯子)
https://braineanear.medium.com ... 32e42
3. ES 知识点串讲(5)节点角色(需要梯子)
https://braineanear.medium.com ... 4257e
编辑:斯蒂文
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili
INFINI Labs 产品更新 | 重磅推出 Easysearch 一个分布式的近实时搜索与分析引擎
资讯动态 • liaosy 发表了文章 • 0 个评论 • 4510 次浏览 • 2023-05-16 11:57

INFINI Labs 产品又更新啦,包括 Easysearch v1.1.0、Gateway v1.13.0、Console v1.1.0、Agent v0.4.0,其中 Easysearch 经过团队的数月打磨,现正式对外推出。Easysearch 是一个分布式的近实时搜索与分析引擎,核心引擎基于开源的 Apache Lucene。Easysearch 衍生自基于开源协议 Apache 2.0 的 Elasticsearch 7.10.2 版本。Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本,并继续完善和支持更多的企业级功能。与 Elasticsearch 相比,Easysearch 更关注在搜索业务场景的优化和继续保持其产品的简洁与易用性。欢迎大家下载体验。
INFINI Easysearch v1.1.0
INFINI Easysearch 本次更新最重要的功能是引入了 ZSTD 压缩算法,对索引进行全方位的压缩,尤其针对日志数据压缩效果更加明显,针对 1.1G 的 Nginx 日志进行测试,采用 ZSTD 策略后,膨胀率只有 0.94,甚至比原始数据还要小,而且还能进一步压缩,和 index.source_reuse 结合使用后,膨胀率只有 0.7,索引大小只有 Elasticsearch 原生 best_compression 的 59%,是 Elasticsearch 6.x 的 49%。下面是一张索引大小对比图:

更多介绍查看 [详情](https://www.infinilabs.com/blo ... ssion/)。
其他更新功能如下:
Breaking changes
- Lucene 版本升级到 8.11.2
Breaking changes
- 增加 ZSTD codec, 引入 ZSTD 压缩算法,对存储字段,doc_values,词典进行压缩。
- 增加 index.source_reuse 索引级别配置,对 _source 进一步压缩。
- 提供索引生命周期管理 ILM 模块的功能,绝大部分 api 兼容 elasticsearch
Breaking changes
- 减少冗余日志输出。
- 减少 modules 模块整体大小。
下载地址:https://www.infinilabs.com/download
INFINI Gateway v1.13.0
极限网关本次更新如下:
Features
router.rules
增加 enabled 选项,控制是否启用 flow- 增加对 loong64 架构的支持
- 增加对 riscv64 架构的支持
- elasticsearch filter 增加 dial_timeout 选项
Bug fix
- 修复 http/elasticsearch 转发后 HTTP 响应头丢失的问题
- 修复 pipeline 热加载出现重复 pipeline 同时运行的问题
- 修复 bulk_indexing 退出后泄漏 goroutine 的问题
Improvements
- 优化 HTTP 头设置方式,避免出现重复的 HTTP 头
- 优化 pipeline 停止的响应速度
- pipeline 增加 enabled 选项,控制是否启用 pipeline
更多 Gateway 更新可参考【[Gateway 版本历史](https://www.infinilabs.com/doc ... -notes)】。
INFINI Console v1.1.0
本次 INFINI Console 版本发布主要新增了网关实时日志查看功能、完善了数据迁移功能和数据看板的可视化能力、以及修复了已知 Bug。
实时日志
登录 Console,进入 [资源管理][网关管理] 界面,可以看到网关实时日志入口(前提需要注册网关)如下图所示:

进入实时日志展示界面,点击“开始”按钮后,服务端将 Gateway 日志实时推送到 Console 界面展示,在该界面可以动态调整输出不同的日志级别(DEBUG、INFO、WARN、ERROR 等),同时也支持文件名、方法名、消息内容加通配符进行过滤。

详情查看 [动手教程](https://www.infinilabs.com/doc ... -logs/) 和 [操作演示视频](https://www.bilibili.com/video/BV15z4y1h7Rd)。
数据迁移
数据迁移模块,基于上个版本做了优化,添加 ILM,Template,Alias 初始化操作。方便用户根据各自的需求迁移索引生命周期、模板、别名等。

数据看板
数据看板图表支持复制、快速切换、时间框选、缩放、标记高亮,进一步增强 Console 可视化能力。

详情查看 [操作演示视频](https://www.bilibili.com/video/BV1Ws4y1g7Eu)。
除以上主要功能更新外,Console 其他功能优化如下:
Bug fix
- 修复数据探索保存查询出现 mapping 错误的问题
- 修复数据看板组件数据源配置的问题
- 修复数据探索左侧字段栏样式的问题
- 修复集群注册向导点击跳转后丢失集群类型的问题
Improvements
- 数据看板汉化
更多 Console 更新可参考【[Console 版本历史](https://www.infinilabs.com/doc ... -notes)】。
INFINI Agent v0.4.0
数据采集工具探针(INFINI Agent)更新如下:
Features
- 新增 logs_processor ,配置采集本地日志文件
Breaking changes
- es_logs_processor 调整日志字段
- created 重命名为 timestamp
- 自动提取 payload.timestamp payload.@timestmap 字段到 timestamp
- created 重命名为 timestamp
- es_logs_processor 删除 enable 选项
下载地址:
https://www.infinilabs.com/download/?product=agent
期待反馈
欢迎下载体验使用,如果您在使用过程中遇到如何疑问或者问题,欢迎前往 INFINI Labs Github([https://github.com/infinilabs](https://github.com/infinilabs)) 中的对应项目中提交 Feature Request 或提交 Bug。
- INFINI Gateway: [https://github.com/infinilabs/gateway/issues](https://github.com/infinilabs/gateway/issues)
- INFINI Console: [https://github.com/infinilabs/console/issues](https://github.com/infinilabs/console/issues)
- 下载地址: [https://www.infinilabs.com/download](https://www.infinilabs.com/download)
您还可以通过邮件联系我们:hello@infini.ltd
或者拨打我们的热线电话:(+86) 400-139-9200
也欢迎大家微信扫码添加小助手(INFINI-Labs),加入用户群讨论,或者扫码加入我们的知识星球一起学习交流。

关于极限科技(INFINI Labs)

极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。
极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。
详情参见官网:[https://www.infinilabs.com](https://www.infinilabs.com)
使用 Easysearch,日志存储少一半
默认分类 • xiaoshi2 发表了文章 • 2 个评论 • 3281 次浏览 • 2023-05-16 11:37
在海量日志存储场景中,索引膨胀率是一个关键指标,直接影响存储成本和查询性能。它表示原始数据与索引数据在磁盘上所占空间的比率。较高的索引膨胀率不仅增加了存储成本,而且可能会影响查询速度,尤其是在 I/O 密集型的查询中。因此,我们需要密切关注和优化索引膨胀率。接下来,我们将比较 Elasticsearch 和 Easysearch 在处理相同数据时的索引膨胀率。
测试结果
一图胜千言,下图是 Easysearch v1.1 和 Elasticsearch v6.4.3 的索引大小测试对比,Y 轴单位是 MB。
使用 Easysearch v1.1 的压缩功能,比 Elasticsearch v6.4.3 的索引大小降低了 50%。

测试说明
以下是对 Elasticsearch v6.4.3 版本,测试数据 500 万条大小 1.054G(1080M)的 nginx 日志,使用 es 默认的 mapping,分别用 best_compression 和 default 的压缩策略进行写入。
Elasticsearch v6.4.3
| 索引 | 大小(MB) | 膨胀率 | 条数(万) |
| ---------------- | -------- | ------ | -------- |
| nginx_default_1g | 1812.61 | 1.61 | 500 |
| nginx_best_1g | 1551.36 | 1.42 | 500 |
然后我们对比下,使用极限科技的 Easysearch 进行索引膨胀率的压测.
Easysearch 是什么?
INFINI Easysearch 衍生自基于开源协议 Apache 2.0 的 Elasticsearch 7.10 版本。 Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本,并继续完善和支持更多的企业级功能,与 Elasticsearch 相比,Easysearch 更关注在搜索业务场景的优化和继续保持其产品的简洁与易用性。
安装包大小只有 54 兆,相比 Elasticsearch 动辄一两百兆的安装包更加轻量级。
Easysearch v1.1
| 索引 | 大小(MB) | 膨胀率 | 条数(万) |
| ---------------- | -------- | ------ | -------- |
| nginx_default_1g | 1514 | 1.33 | 500 |
| nginx_best_1g | 1286 | 1.138 | 500 |
| nginx_zstd_1g | 1015.3 | 0.94 | 500 |
| nginx_reuse_1g | 758.39 | 0.70 | 500 |
注意上面使用到的 Easysearch 的压缩策略有 4 种:
| 压缩策略 | 描述 |
| ------------------ | ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| default | 和 Elasticsearch 的 default 压缩策略一致。 |
| best_compression | 和 Elasticsearch 的 best_compression 一致。 |
| ZSTD | ZSTD(Zstandard)是一种开源的压缩算法和压缩库,旨在提供高性能和高压缩比的数据压缩解决方案。由 Facebook 开发并开源的一个压缩库,Easysearch 1.1 版引入了这个压缩算法作为一个可选的压缩策略,分别对存储字段,doc_values,和词典文件进行了压缩,并且 Easysearch 使用的 zstd 是纯 java 版,不依赖底层的操作系统和 cpu 架构,无需单独编译可以直接部署在国产的操作系统和芯片上。 |
| index.source_reuse | Easysearch v1.1 新增加的一个索引配置项,表示是否对 source 中的字段进行复用,熟悉 Elasticsearch 存储结构的都知道,es 底层依赖 lucene 作为核心的存储和查询引擎,默认 mapping 下,在将 es 的字段解析成 lucene 的对应字段后,一个 keyword 类型的字段会分别存储在 _source 和 doc_values 字段里,Easysearch 将 keyword 字段在 source 存储时进行了过滤,然后在查询阶段又利用 doc_values 对 source 里过滤的 keyword 字段进行了无缝拼接,用户层面感知不到对 keyword 字段的特殊处理。 |
default 和 best_compression 比之前 6.43 版的膨胀率降低是因为得益于 lucene 版本的升级到了 8.11.2,新版的 lucene 的压缩比之前的版本有了很大提升。
重点是最后利用 ZSTD 加 index.source_reuse,存储资源的占用比之前 6.43 版本的 best_compression 的 1.5G 减少了 50%,对比相同 lucene 版本的 best_compression,存储资源也减少了 40%,带来以下几点好处:
- 降低存储成本:较低的索引膨胀率意味着存储相同量的数据需要更少的磁盘空间,这将直接减少硬件和维护成本。
- 提高系统扩展性:由于索引占用的存储空间较小,可以在相同的硬件上处理更多的数据,或者在扩展存储时,需要添加的硬件更少。
- 更高效的数据备份和传输:小的索引文件意味着备份和传输数据的时间和带宽需求都会减少。
使用方法
```启用ZSTD
PUT nginx_zstd
{
"settings": {
"codec": "ZSTD"
}
}
启用index.source_reuse
PUT nginx_reuse
{
"settings": {
"index.source_reuse": true
}
}
结合使用
PUT nginx_reuse
{
"settings": {
"codec": "ZSTD",
"index.source_reuse": true
}
}
```
最后附上 Easysearch 的下载地址,欢迎大家下载试用。
[https://www.infinilabs.com/dow ... earch](https://www.infinilabs.com/dow ... search)
集群分片数非常多的情况下,是否会造成master节点频繁gc
Elasticsearch • xiaohei 回复了问题 • 3 人关注 • 2 个回复 • 3228 次浏览 • 2023-07-07 16:23