使用 shuf 来打乱一个文件中的行或是选择文件中一个随机的行。

比FST还要快的东东?

回复

ElasticsearchCharele 发起了问题 • 1 人关注 • 0 个回复 • 1731 次浏览 • 2023-08-17 14:05 • 来自相关话题

社区日报 第1686期 (2023-08-17)

社区日报Se7en 发表了文章 • 0 个评论 • 1263 次浏览 • 2023-08-17 09:15 • 来自相关话题

1.如何在 ElasticSearch 结合过滤与向量搜索(需要梯子)
https://medium.com/%40fatihsat ... 8d179
2.Elasticsearch 通过路由提升聚合性能(需要梯子)
https://medium.com/%40kulekci/ ... 1e12d
3.优化 Elasticsearch 以实现大容量数据摄取(需要梯子)
https://medium.com/%40yannvds/ ... ee574

编辑:Se7en
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili

使用 Logstash 同步 MySQL 到 Easysearch

Easysearchyangmf2040 发表了文章 • 0 个评论 • 1521 次浏览 • 2023-08-17 00:49 • 来自相关话题

从 MySQL 同步数据到 ES 有多种方案,这次我们使用 ELK 技术栈中的 Logstash 来将数据从 MySQL 同步到 Easysearch 。

方案前提


  1. MySQL 表记录必须有主键,比如 id 字段。通过该字段,可将 Easysearch 索引数据与 MySQL 表数据形成一对一映射关系,支持修改。
  2. MySQL 表记录必须有时间字段,以支持增量同步。

    如果上述条件具备,便可使用 logstash 定期同步新写入或修改后的数据到 Easysearch 中。

    方案演示

    版本信息

    MySQL: 5.7
    Logstash: 7.10.2
    Easysearch: 1.5.0

    MySQL 设置

    创建演示用的表。
    yaml<br /> CREATE DATABASE es_db;<br /> USE es_db;<br /> DROP TABLE IF EXISTS es_table;<br /> CREATE TABLE es_table (<br /> id BIGINT(20) UNSIGNED NOT NULL,<br /> PRIMARY KEY (id),<br /> UNIQUE KEY unique_id (id),<br /> client_name VARCHAR(32) NOT NULL,<br /> modification_time TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,<br /> insertion_time TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP<br /> );<br />
    说明

    • id 字段: 主键、唯一键,将作为 Easysearch 索引中的 doc id 字段。
    • modification_time 字段: 表记录的插入和修改都会记录在此。
    • client_name: 代表用户数据。
    • insertion_time: 可省略,用来记录数据插入到 MySQL 数据的时间。

      插入数据

      yaml<br /> INSERT INTO es_table (id, client_name) VALUES (1, 'test 1');<br /> INSERT INTO es_table (id, client_name) VALUES (2, 'test 2');<br /> INSERT INTO es_table (id, client_name) VALUES (3, 'test 3');<br />

      Logstash

      配置文件
      yaml<br /> input {<br /> jdbc {<br /> jdbc_driver_library => "./mysql-connector-j-8.1.0/mysql-connector-j-8.1.0.jar"<br /> jdbc_driver_class => "com.mysql.jdbc.Driver"<br /> jdbc_connection_string => "jdbc:mysql://192.168.56.3:3306/es_db"<br /> jdbc_user => "root"<br /> jdbc_password => "password"<br /> jdbc_paging_enabled => true<br /> tracking_column => "unix_ts_in_secs"<br /> use_column_value => true<br /> tracking_column_type => "numeric"<br /> last_run_metadata_path => "./.mysql-es_table-sql_last_value.yml"<br /> schedule => "*/5 * * * * *"<br /> statement => "SELECT *, UNIX_TIMESTAMP(modification_time) AS unix_ts_in_secs FROM es_table WHERE (UNIX_TIMESTAMP(modification_time) > :sql_last_value AND modification_time < NOW()) ORDER BY modification_time ASC"<br /> }<br /> jdbc {<br /> jdbc_driver_library => "./mysql-connector-j-8.1.0/mysql-connector-j-8.1.0.jar"<br /> jdbc_driver_class => "com.mysql.jdbc.Driver"<br /> jdbc_connection_string => "jdbc:mysql://192.168.56.3:3306/es_db"<br /> jdbc_user => "root"<br /> jdbc_password => "password"<br /> schedule => "*/5 * * * * *"<br /> statement => "SELECT count(*) AS count,'es_table' AS table_name from es_table"<br /> }<br /> }<br /> filter {<br /> if ![table_name] {<br /> mutate {<br /> copy => { "id" => "[@metadata][_id]"}<br /> remove_field => ["@version", "unix_ts_in_secs","@timestamp"]<br /> add_field => { "[@metadata][target_index]" => "mysql_es_table" } }<br /> } else {<br /> mutate { <br /> add_field => { "[@metadata][target_index]" => "table_counts" } <br /> remove_field => ["@version"]<br /> }<br /> uuid {<br /> target => "[@metadata][_id]"<br /> overwrite => true<br /> }<br /> }<br /> }<br /> output {<br /> elasticsearch {<br /> hosts => ["<a href="https://localhost:9200"" rel="nofollow" target="_blank">https://localhost:9200"</a>]<br /> user => "admin"<br /> password => "f0c6fc61fe5f7b084c00"<br /> ssl_certificate_verification => "false"<br /> index => "%{[@metadata][target_index]}"<br /> manage_template => "false"<br /> document_id => "%{[@metadata][_id]}"<br /> }<br /> }<br />

    • 每 5 秒钟同步一次 es_table 表的数据到 mysql_sync_idx 索引。
    • 每 5 秒统计一次 es_table 表的记录条数到 table_counts 索引,用于监控。

      启动 logstash

      yaml<br /> ./bin/logstash -f sync_es_table.conf<br />
      查看同步结果, 3 条数据都已同步到索引。
      ![](https://www.infinilabs.com/img ... /1.png)
      Mysql 数据库新增记录
      yaml<br /> INSERT INTO es_table (id, client_name) VALUES (4, 'test 4');<br />
      Easysearch 确认新增
      ![](https://www.infinilabs.com/img ... /2.png)

      Mysql 数据库修改记录
      yaml<br /> UPDATE es_table SET client_name = 'test 0001' WHERE id=1;<br />
      Easysearch 确认修改
      ![](https://www.infinilabs.com/img ... /3.png)

      删除数据

      Logstash 无法直接删除操作到 ES ,有两个方案:

  3. 在表中增加 is_deleted 字段,实现软删除,可达到同步的目的。查询过滤掉 is_deleted : true 的记录,后续通过脚本等方式定期清理 is_deleted : true 的数据。
  4. 执行删除操作的程序,删除完 MySQL 中的记录后,继续删除 Easysearch 中的记录。

    同步监控

    数据已经在 ES 中了,我们可利用 INFINI Console 的数据看板来监控数据是否同步,展示表记录数、索引记录数及其变化。
    ![](https://www.infinilabs.com/img ... /4.png)

TieredMergePolicy中的为什么当hitTooLarge为true时,skew设为最优值

LuceneCharele 回复了问题 • 2 人关注 • 1 个回复 • 1579 次浏览 • 2023-08-16 23:34 • 来自相关话题

社区日报 第1685期 (2023-08-16)

社区日报kin122 发表了文章 • 0 个评论 • 977 次浏览 • 2023-08-16 16:06 • 来自相关话题

1.ES的文档关联度算法解析(需要梯子)
https://medium.com/%40_niteshs ... 74004
2.‘Cycle detected for pipeline: main-pipeline’报错探究(需要梯子)
https://medium.com/%40musabdog ... f993d
3.搜文本搜位置搜图片,1小时玩转阿里云 Elasticsearch
https://blog.csdn.net/UbuntuTo ... 89544

编辑:kin122
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili

fuzziness AUTO参数疑问

ElasticsearchCharele 回复了问题 • 2 人关注 • 1 个回复 • 1052 次浏览 • 2023-08-16 16:16 • 来自相关话题

社区日报 第1684期 (2023-08-15)

社区日报God_lockin 发表了文章 • 0 个评论 • 903 次浏览 • 2023-08-15 14:15 • 来自相关话题



1. python接入ES利器之又一个 Django(需要梯子)
https://awstip.com/mastering-e ... a861a

2. 在Admina,我们这样存数据(需要梯子)
https://mfi.engineering/how-do ... 37551

3. 同一网络里的俩节点,咋用ES agent采日志?(需要梯子)
https://medium.com/%40bytaskin ... e9194

编辑:斯蒂文
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili

elastic快照备份到minio频繁出现超时

ElasticsearchCharele 回复了问题 • 3 人关注 • 3 个回复 • 1623 次浏览 • 2023-08-23 10:52 • 来自相关话题

社区日报 第1683期 (2023-08-14)

社区日报yuebancanghai 发表了文章 • 0 个评论 • 887 次浏览 • 2023-08-14 13:31 • 来自相关话题

1. 推出 Elasticsearch 查询语言 (ES|QL)
  https://elasticstack.blog.csdn ... .5502
2. 使用 Elasticsearch 进行地理位置搜索
   https://zhuanlan.zhihu.com/p/315931530
3. 如何让主分片(shards)均匀分布
   https://blog.csdn.net/myhes/ar ... 22966
编辑:yuebancanghai
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站:https://ela.st/bilibili

社区日报 第1682期 (2023-08-11)

社区日报laoyang360 发表了文章 • 0 个评论 • 1760 次浏览 • 2023-08-11 13:09 • 来自相关话题

1、实时数据处理:Storm、Kafka与ElasticSearch的应用
https://www.javacodegeeks.com/ ... .html

2、Elasticsearch vs OpenSearch,如何选型?性能对比告诉你答案
https://www.elastic.co/cn/blog ... e-gap

3、在Elasticsearch搜索结果中提升最近活动的权重实现(梯子)
https://medium.com/%40abhishek ... 63cf4

4、Elasticsearch 成本优化实战
https://search-guard.com/elast ... tion/

编辑:铭毅天下
归档:https://ela.st/cn-daily-all
订阅:https://ela.st/cn-daily-sub
沙龙:https://ela.st/cn-meetup
B站: https://ela.st/bilibili

INFINI Labs 产品更新 | Easysearch 支持 SQL 查询、Console 告警功能支持邮件等多渠道

资讯动态liaosy 发表了文章 • 0 个评论 • 2406 次浏览 • 2023-08-11 11:55 • 来自相关话题

![release](https://www.infinilabs.com/img ... er.png)

INFINI Labs 产品又更新啦~。本次更新概要如下:Easysearch 新增 SQL 插件和JDBC 驱动,支持 SQL 查询,支持 SQL 常用函数等;Console 针对告警功能做了升级优化,新增了邮件渠道,支持自定义邮件服务器配置,以及支持飞书、钉钉、企业微信、Discord、Slack 等多渠道 Webhook 发送告警通知,优化平台概览 UI 界面、展示效果更简单友好,提高了用户体验。欢迎大家下载使用。

INFINI Easysearch v1.5.0


INFINI Easysearch 是一个分布式的近实时搜索与分析引擎,核心引擎基于开源的 Apache Lucene。Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本,并继续完善和支持更多的企业级功能。

Easysearch 本次更新如下:

Features


  • 增加 SQL 插件,支持使用 REST 接口和 JDBC 进行 SQL 查询
  • 支持 SQL 常用函数、包括数学函数、三角函数、日期函数、字符串函数、聚合函数等
  • SQL 语句可以嵌入全文检索
  • 增加 JDBC 驱动,可以通过用户密码或证书连接到集群

    Bug fix


  • 修复 kNN 插件的配置项导致非 kNN 索引的 setting 不能正常解析的 Bug

    INFINI Console v1.6.0


    INFINI Console 是一款非常轻量级的多集群、跨版本的搜索基础设施统一管控平台。通过对流行的搜索引擎基础设施进行跨版本、多集群的集中纳管, 企业可以快速方便的统一管理企业内部的不同版本的多套搜索集群。Console 在线体验:<http://demo.infini.cloud>; (用户名/密码:readonly/readonly)。

    Console 本次主要更新如下:

    1、告警功能重磅更新

    该版本主要更新告警规则和渠道,Console 内置了常用的告警规则和渠道,支持邮件、飞书、钉钉、企业微信、Slack、Discord 等渠道,下载安装部署后仅需在 Console 界面菜单 [告警管理->告警渠道] 配置相关渠道的 Webhook 链接或者邮件服务器并启用渠道开关,无需做额外操作即可接收告警通知消息,我们的目标是做到开箱即用,简单实用。

    ![](https://infinilabs.com/img/blo ... /4.jpg)

    1.1 支持邮件渠道


    通过配置邮件渠道,设置相关收件人、邮件内容模式(支持纯文本与 HTML)等参数,并将邮件渠道绑定到告警规则,当告警事件触发时,告警消息将被发送到相关收件人邮箱。通过增加邮件渠道有效提升了告警消息触达能力,让用户第一时间接受和处理问题。邮件渠道配置界面如下图所示:

    ![](https://infinilabs.com/img/blo ... /1.png)

    1.2 全面优化告警通知效果


    本次更新 Console 默认内置了告警渠道通知消息内容模板,通过系统环境变量及告警上下文变量组合成消息内容,用户无需修改即可复用,也可以自定义修改。各渠道通知消息效果如下图所示:

    ![email](https://infinilabs.com/img/blo ... il.jpg)
    ![feishu](https://infinilabs.com/img/blo ... hu.jpg)
    ![dingtalk](https://infinilabs.com/img/blo ... lk.jpg)

    1.3 告警功能演示视频


    请查看 [演示视频](https://www.bilibili.com/video/BV1iu411n7MY/)


    2、优化平台概览 UI、新界面更简单友好


    本次更新优化了平台概览中的集群、节点、索引、主机列表的展示效果,统一风格,突出关键指标显示,提供了卡片和表格两种展示模式,可以按需切换查看。UI 效果如下所示:

    ![](https://infinilabs.com/img/blo ... /2.jpg)
    ![](https://infinilabs.com/img/blo ... /3.jpg)

    Console 详细更新如下:

    Features


  • 优化平台概览 UI 界面、支持卡片和表格样式切换展示
  • 告警规则新增告警恢复通知配置
  • 告警渠道新增邮件通知
  • 告警规则和告警渠道新增导入导出
  • 新增邮件服务器

    Bug fix


  • 修复数据探索切换视图排序失效的问题

    Improvements


  • 调整告警规则渠道配置
  • 调整饼图样式

    INFINI Agent v0.6.1


    INFINI Agent 是 INFINI Console 的一个可选探针组件,负责采集和上传集群指标和日志等信息,并可通过 Console 管理。Agent 支持主流操作系统和平台,安装包轻量且无任何外部依赖,可以快速方便地安装。

    Agent 本次更新如下:

    Bug fix


  • 修复发现节点进程信息时获取 ES 节点端口不对的问题

    期待反馈


    欢迎下载体验使用,如果您在使用过程中遇到如何疑问或者问题,欢迎前往 INFINI Labs Github(<https://github.com/infinilabs>;) 中的对应项目中提交 Feature Request 或提交 Bug。

  • INFINI Gateway: <https://github.com/infinilabs/gateway/issues>;
  • INFINI Console: <https://github.com/infinilabs/console/issues>;
  • 下载地址: <https://www.infinilabs.com/download>;

    您还可以通过邮件联系我们:hello@infini.ltd

    或者拨打我们的热线电话:(+86) 400-139-9200

    欢迎加入 Discord 聊天室:<https://discord.com/invite/4tKTMkkvVX>;

    也欢迎大家微信扫码添加小助手(INFINI-Labs),加入用户群一起讨论交流。

    ![联系我们](https://www.infinilabs.com/img ... ew.jpg)


    关于极限科技(INFINI Labs)


    ![INFINI Labs](https://www.infinilabs.com/img ... bs.png)

    极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实验室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。

    极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在全球各地,希望通过努力成为中国乃至全球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。

    官网:<https://www.infinilabs.com>;

一个简单常见的场景中的问题

ElasticsearchCharele 回复了问题 • 2 人关注 • 2 个回复 • 1732 次浏览 • 2023-08-14 17:17 • 来自相关话题

请教一个问题,ES must_not 多条件查询时不符合预期

ElasticsearchCharele 回复了问题 • 2 人关注 • 1 个回复 • 1788 次浏览 • 2023-08-10 20:11 • 来自相关话题

关于软删除的疑问啊啊啊

ElasticsearchOmbres 回复了问题 • 3 人关注 • 3 个回复 • 1248 次浏览 • 2023-08-15 17:44 • 来自相关话题

再提IndexOrDocValuesQuery的问题

ElasticsearchChrisLu 回复了问题 • 2 人关注 • 1 个回复 • 1262 次浏览 • 2023-08-10 16:53 • 来自相关话题