文章 - 搜索客，搜索人自己的社区

【搜索客社区日报】第2275期 (2026-07-28)

1. 零改动查询！教你如何将 Elasticsearch 日志存储空间暴砍一半的骚操作！（需要梯子）
https://dev.to/dorlevi/cutting ... -3e2g

2. 血泪复盘！一个耗时 8 个月才爆雷的 ES 升级坑，我们是如何用一整晚紧急修复的？（需要梯子）
https://medium.com/%40williams ... 58bad

3. 脱敏防泄密！手把手教你用 Logstash 安全采样生产数据到测试环境的实战指南！
https://www.elastic.co/blog/pr ... stash

4. 终极通关指南！一文打通 Elasticsearch & OpenSearch 从倒排索引到分片、DSL 的核心精髓！（需要梯子）
https://dev.to/pyshine/learn-e ... o-n82

5. 极致响应！海量数据下如何将 Magento 2 搜索自动补全延迟死死压在 200ms 以内？（需要梯子）
https://dev.to/magevanta/magen ... -1kjl

编辑：斯蒂文
更多资讯：http://news.searchkit.cn

继续阅读 »

【搜索客社区日报】第2273期 (2026-07-24）

1、RAG 核心概念与原理：Chunking、Embedding、相似度、HNSW 与多路召回｜得物技术
https://mp.weixin.qq.com/s/gfFlUUNbKZ23G7NgWHU3YQ

2、向量检索 + AI 搜索——Easysearch 如何助力国产大模型应用
https://mp.weixin.qq.com/s/71156V1hi8M38ws1n1jByg

3、FalconSeek 技术解析：阿里云 Elasticsearch 云原生内核如何让查询性能飙升600%
https://mp.weixin.qq.com/s/Z28CjyXW2gGvOHFRIAyLTw

编辑：Fred
更多资讯：http://news.searchkit.cn

继续阅读 »

【搜索客社区日报】第2272期 (2026-07-23）

1.纯干货分享 —— AI Memory 系统架构的构思、随想与工程实现
https://mp.weixin.qq.com/s/b_0KOiRzzrEb4hul-T7MKQ
2.在文件系统最深处，等 AI 长大
https://mp.weixin.qq.com/s/cCtgnWQD7PYTNyG3lZC6Kw
3. 花一年时间整理出的：AI 数据库混合搜索入门实践
https://mp.weixin.qq.com/s/cs5kYXcwOHGWVgwFXvglIg

编辑：Se7en
更多资讯：http://news.searchkit.cn

继续阅读 »

【搜索客社区日报】第2271期 (2026-07-22）

1.超越 RAG：Google OKF 与向量数据库的新分工
https://mp.weixin.qq.com/s/ApvxrcgGW0Ya9zTjKS8KNg

2.Elasticsearch 9.5 如何自己"算出"最优量化参数
https://mp.weixin.qq.com/s/cX8yBgCQPvb6KieEthNUkg

3.让向量听懂孤独：我是如何用 Elastic Agent Builder 构建一个情绪疗愈 agent 的
https://blog.csdn.net/UbuntuTo ... 66492

编辑：kin122
更多资讯：http://news.searchkit.cn

继续阅读 »

【搜索客社区日报】第2270期 (2026-07-21)

1. 降维打击！我做的一套简易 AI 检索架构，是如何被定义为行业标准框架的？（需要梯子）
https://medium.com/%40rahulphu ... dd1f0

2. 跟日志聊天？用 AI + Elasticsearch 开启日志智能交互新体验！（需要梯子）
https://medium.com/%40cannizza ... c0758

3. 相爱相杀！细说 Elasticsearch 与 OpenSearch 分家恩怨与开源协议之争！（需要梯子）
https://medium.com/%40KnowTech ... fb883

4. Laravel 监控利器！引入 Elastic Audit：轻松实现 HTTP 与系统操作日志审计！（需要梯子）
https://medium.com/%40torniket ... c259a

5. 手把手教你做 Elasticsearch 日志解析与 Kibana 可视化仪表盘！（需要梯子）
https://medium.com/%40yigitemr ... 8daa7

编辑：斯蒂文
更多资讯：http://news.searchkit.cn

继续阅读 »

【搜索客社区日报】第2269期 (2026-07-20）

1、你的 AI 表现不佳。你的数据基础才是问题
https://elasticstack.blog.csdn ... 62564

2、让向量听懂孤独：我是如何用 Elastic Agent Builder 构建一个情绪疗愈 agent 的
https://elasticstack.blog.csdn ... 66492

3、阿里云 AgentTeams 解读：当 Agent 开始真正在企业里干活
https://mp.weixin.qq.com/s/oM3V-URazBmlLBeJQR3O_A

4、你的 Harness 工作流真的在进步吗？我们用一场考试撕掉了遮羞布
https://mp.weixin.qq.com/s/kAPx6ZxXxpTyRi-hYAbqtA

5、我们如何构建 Elasticsearch simdvec，使向量搜索成为世界上最快之一
https://mp.weixin.qq.com/s/evkNQkmnYv2FTeYWuyKzrg

编辑：Muse
更多资讯：http://news.searchkit.

继续阅读 »

INFINI Easysearch 向量搜索实战（一）

Easysearch 提供了强大的向量搜索能力，打破传统关键词匹配的局限，实现真正的“懂你”的语义搜索。助力企业快速构建智能推荐、图像识别和内容理解等 AI 应用，释放数据深层价值。

核心能力

能力	说明
两种向量类型	稠密浮点向量（knn_dense_float_vector）和稀疏布尔向量（knn_sparse_bool_vector）
多种索引模型	lsh（局部敏感哈希，近似搜索）、permutation_lsh（置换 LSH）、sparse_indexed（倒排索引）、exact（精确搜索）
多种相似度	cosine（余弦）、l1（曼哈顿距离）、l2（欧氏距离）、jaccard、hamming
与全文搜索融合	向量字段与文本字段存储在同一索引，支持 Hybrid 混合检索
function_score 集成	向量相似度可作为 function_score 的评分函数

典型应用场景

语义搜索：文本通过 Embedding 模型转为向量，按语义相似度检索
RAG 检索增强生成：为大语言模型提供知识库检索能力
推荐系统：用户/商品特征向量的相似推荐
图像/多模态搜索：图像特征向量的相似检索
去重与异常检测：通过向量距离判断内容相似度

Embedding 服务

在使用向量搜索前，先要准备一个 Embedding 模型，支持与 OpenAI API 兼容的 embedding 接口和 Ollama embedding 接口。本文使用阿里云上的 Embedding 模型进行演示。

写入方法

方法一：写入链路嵌入（推荐）

在数据写入 Easysearch 时，通过 Ingest Pipeline 自动调用 Embedding 服务：

应用写数据 → Easysearch → Ingest Pipeline → 调用 Embedding API → 写入向量字段

优势是写入后即可搜索，无需维护外部向量化流程。需要确保集群应至少有一个节点拥有 ingest 角色。

方法二：离线批处理

在应用侧完成向量化，再将向量字段直接写入 Easysearch：

原始数据 → 应用 → 调用模型 Embedding API → 写入 Easysearch（含向量字段）

参考文档。

实战

我们实战演示模式一，分为以下几个步骤：

建立带有向量字段的索引
创建对应的 Ingest Pipeline
写入数据到索引

1. 建立带有向量字段的索引

先建立一个带向量字段的索引，注意 dims 要与向量模型的输出匹配。

PUT /my-index
{
  "mappings": {
    "properties": {
      "text_vector": {
        "type": "knn_dense_float_vector",
        "knn": {
          "dims": 1024,
          "model": "lsh",
          "similarity": "cosine",
          "L": 99,
          "k": 1
        }
      }
    }
  }
}

2. 创建对应的 Ingest Pipeline

写入数据前先建立 Ingest Pipeline，注意 vendor 必须根据使用的模型来指定，比如本文使用的是阿里云 text-embedding-v4 模型，该模型提供了 OpenAI 格式的 API 接口，这里 vendor 我们就写 openai。

PUT _ingest/pipeline/text-embedding-pipeline
{
  "description": "用于生成文本嵌入向量的管道",
  "processors": [
    {
      "text_embedding": {
        "url": "https://dashscope.aliyuncs.com/compatible-mode/v1/embeddings",
        "vendor": "openai",
        "api_key": "xxxxxx",
        "text_field": "input_text",
        "vector_field": "text_vector",
        "model_id": "text-embedding-v4",
        "dims": 1024,
        "ignore_missing": false,
        "ignore_failure": false
      }
    }
  ]
}

text_field：指定原始文本字段，Pipeline 会将该字段的内容转换成向量。

vector_field：指定向量存储的字段，保存上面转换的向量。

3. 写入数据

POST /_bulk?pipeline=text-embedding-pipeline&pretty
{"index": {"_index": "my-index", "_id": "1"}}
{"input_text": "苹果发布了新款iPhone 15 Pro手机，搭载A17芯片"}
{"index": {"_index": "my-index", "_id": "2"}}
{"input_text": "特斯拉宣布将在上海建第二座超级工厂"}
{"index": {"_index": "my-index", "_id": "3"}}
{"input_text": "今天天气真好，阳光明媚适合去公园散步"}
{"index": {"_index": "my-index", "_id": "4"}}
{"input_text": "程序员用Python写了一个自动化数据清洗脚本"}
{"index": {"_index": "my-index", "_id": "5"}}
{"input_text": "故宫博物院推出了夏季特展，展出珍贵文物"}
{"index": {"_index": "my-index", "_id": "6"}}
{"input_text": "小明每天坚持跑步五公里，身体越来越健康"}
{"index": {"_index": "my-index", "_id": "7"}}
{"input_text": "人工智能大模型在自然语言处理领域取得突破"}
{"index": {"_index": "my-index", "_id": "8"}}
{"input_text": "这家咖啡店的拿铁口感丝滑，推荐给咖啡爱好者"}
{"index": {"_index": "my-index", "_id": "9"}}
{"input_text": "量子计算机有望在药物研发中发挥重要作用"}
{"index": {"_index": "my-index", "_id": "10"}}
{"input_text": "周末和朋友一起去爬山，山顶的风景美极了"}

4. 检查数据

搜索索引数据，看看是否成功转换成了向量。可以看到原始数据保存在 input_text 字段中，其向量保存到了 text_vector。

OK，下一步我们看看怎么方便地实现向量搜索。

关于 Easysearch

INFINI Easysearch 是一个分布式的搜索型数据库，实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch，同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。

官网文档：https://docs.infinilabs.com/easysearch

相关文章：

Easysearch 向量搜索指南

继续阅读 »

Easysearch 提供了强大的向量搜索能力，打破传统关键词匹配的局限，实现真正的“懂你”的语义搜索。助力企业快速构建智能推荐、图像识别和内容理解等 AI 应用，释放数据深层价值。

核心能力

能力	说明
两种向量类型	稠密浮点向量（knn_dense_float_vector）和稀疏布尔向量（knn_sparse_bool_vector）
多种索引模型	lsh（局部敏感哈希，近似搜索）、permutation_lsh（置换 LSH）、sparse_indexed（倒排索引）、exact（精确搜索）
多种相似度	cosine（余弦）、l1（曼哈顿距离）、l2（欧氏距离）、jaccard、hamming
与全文搜索融合	向量字段与文本字段存储在同一索引，支持 Hybrid 混合检索
function_score 集成	向量相似度可作为 function_score 的评分函数

典型应用场景

语义搜索：文本通过 Embedding 模型转为向量，按语义相似度检索
RAG 检索增强生成：为大语言模型提供知识库检索能力
推荐系统：用户/商品特征向量的相似推荐
图像/多模态搜索：图像特征向量的相似检索
去重与异常检测：通过向量距离判断内容相似度

Embedding 服务

在使用向量搜索前，先要准备一个 Embedding 模型，支持与 OpenAI API 兼容的 embedding 接口和 Ollama embedding 接口。本文使用阿里云上的 Embedding 模型进行演示。

写入方法

方法一：写入链路嵌入（推荐）

在数据写入 Easysearch 时，通过 Ingest Pipeline 自动调用 Embedding 服务：

应用写数据 → Easysearch → Ingest Pipeline → 调用 Embedding API → 写入向量字段

优势是写入后即可搜索，无需维护外部向量化流程。需要确保集群应至少有一个节点拥有 ingest 角色。

方法二：离线批处理

在应用侧完成向量化，再将向量字段直接写入 Easysearch：

原始数据 → 应用 → 调用模型 Embedding API → 写入 Easysearch（含向量字段）

参考文档。

实战

我们实战演示模式一，分为以下几个步骤：

建立带有向量字段的索引
创建对应的 Ingest Pipeline
写入数据到索引

1. 建立带有向量字段的索引

先建立一个带向量字段的索引，注意 dims 要与向量模型的输出匹配。

PUT /my-index
{
  "mappings": {
    "properties": {
      "text_vector": {
        "type": "knn_dense_float_vector",
        "knn": {
          "dims": 1024,
          "model": "lsh",
          "similarity": "cosine",
          "L": 99,
          "k": 1
        }
      }
    }
  }
}

2. 创建对应的 Ingest Pipeline

写入数据前先建立 Ingest Pipeline，注意 vendor 必须根据使用的模型来指定，比如本文使用的是阿里云 text-embedding-v4 模型，该模型提供了 OpenAI 格式的 API 接口，这里 vendor 我们就写 openai。

PUT _ingest/pipeline/text-embedding-pipeline
{
  "description": "用于生成文本嵌入向量的管道",
  "processors": [
    {
      "text_embedding": {
        "url": "https://dashscope.aliyuncs.com/compatible-mode/v1/embeddings",
        "vendor": "openai",
        "api_key": "xxxxxx",
        "text_field": "input_text",
        "vector_field": "text_vector",
        "model_id": "text-embedding-v4",
        "dims": 1024,
        "ignore_missing": false,
        "ignore_failure": false
      }
    }
  ]
}

text_field：指定原始文本字段，Pipeline 会将该字段的内容转换成向量。

vector_field：指定向量存储的字段，保存上面转换的向量。

3. 写入数据

POST /_bulk?pipeline=text-embedding-pipeline&pretty
{"index": {"_index": "my-index", "_id": "1"}}
{"input_text": "苹果发布了新款iPhone 15 Pro手机，搭载A17芯片"}
{"index": {"_index": "my-index", "_id": "2"}}
{"input_text": "特斯拉宣布将在上海建第二座超级工厂"}
{"index": {"_index": "my-index", "_id": "3"}}
{"input_text": "今天天气真好，阳光明媚适合去公园散步"}
{"index": {"_index": "my-index", "_id": "4"}}
{"input_text": "程序员用Python写了一个自动化数据清洗脚本"}
{"index": {"_index": "my-index", "_id": "5"}}
{"input_text": "故宫博物院推出了夏季特展，展出珍贵文物"}
{"index": {"_index": "my-index", "_id": "6"}}
{"input_text": "小明每天坚持跑步五公里，身体越来越健康"}
{"index": {"_index": "my-index", "_id": "7"}}
{"input_text": "人工智能大模型在自然语言处理领域取得突破"}
{"index": {"_index": "my-index", "_id": "8"}}
{"input_text": "这家咖啡店的拿铁口感丝滑，推荐给咖啡爱好者"}
{"index": {"_index": "my-index", "_id": "9"}}
{"input_text": "量子计算机有望在药物研发中发挥重要作用"}
{"index": {"_index": "my-index", "_id": "10"}}
{"input_text": "周末和朋友一起去爬山，山顶的风景美极了"}

4. 检查数据

搜索索引数据，看看是否成功转换成了向量。可以看到原始数据保存在 input_text 字段中，其向量保存到了 text_vector。

OK，下一步我们看看怎么方便地实现向量搜索。

关于 Easysearch

INFINI Easysearch 是一个分布式的搜索型数据库，实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch，同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。

官网文档：https://docs.infinilabs.com/easysearch

相关文章：

Easysearch 向量搜索指南

收起阅读 »

【搜索客社区日报】第2268期 (2026-07-17）

1、OpenAI 发布 GPT-5.6 系列：三款模型、多智能体协作、全新安全体系
https://www.oschina.net/news/471754/gpt-5-6

2、Elasticsearch 深度搜索与查询 DSL 实战：精准定位数据的核心技法
https://cloud.tencent.com/deve ... 15508

3、Elaticsearch 向量迁 Easysearch：别只改字段名
https://mp.weixin.qq.com/s/hEUcF36emuFafSeOlR-dyg

4、大数据量分页，Easysearch 是如何避免性能陷阱的
https://mp.weixin.qq.com/s/BNN4wrKOeog8nRoOUaa2Vw

编辑：Fred
更多资讯：http://news.searchkit.cn

继续阅读 »

【搜索客社区日报】第2267期 (2026-07-15）

1.Embodied3D-DataAgent：基于阿里云 Elastic+AI Agent Builder 的具身机器人 3D 资产全链路数据智能体
https://blog.csdn.net/UbuntuTo ... 76175

2.Semantic_text 字段默认嵌入模型变为 .jina-embeddings-v5-text-small
https://blog.csdn.net/UbuntuTo ... 31729

3.百万Token上下文窗口，正在成为Agent最大的技术负债
https://mp.weixin.qq.com/s/1N4WZHjbRsRIpqiEGDXaBw

编辑：kin122
更多资讯：http://news.searchkit.cn

继续阅读 »

【搜索客社区日报】第2265期 (2026-07-13）

1、一个 OTLP 端点，三个团队，零路由规则：Elasticsearch Streams AI 分区
https://elasticstack.blog.csdn ... 70873

2、谁来评判评判者？在 Elasticsearch Workflows 中使用 LLM-as-a-Judge
https://elasticstack.blog.csdn ... 51391

3、如何使用 OpenTelemetry 在 Elastic 上构建搜索分析，无需额外的管道
https://elasticstack.blog.csdn ... 15352

4、Agent 评测：方法论与体系设计
https://mp.weixin.qq.com/s/7a2L-GatYYwI6s1uK9mTjA

5、一份可信来源，终结 Skill 管理混乱：Skill 治理最佳实践
https://mp.weixin.qq.com/s/b88VRdAQ2u7IhQBqvNcnVg

编辑：Muse
更多资讯：http://news.searchkit.cn

继续阅读 »

【搜索客社区日报】第2264期 (2026-07-09）

1. 当 AI Agent 开始使用数据库，数据库应该变成啥样子？
https://mp.weixin.qq.com/s/GEZFQXx3dXltS8kYvJGguw
2.用 HAMi 与 vCluster 搭建一个迷你本地 AI 工厂
https://mp.weixin.qq.com/s/NCEJ5rGIPHbepdhO_LV6NA
3. 实现搜索反馈回路
https://spinscale.de/posts/202 ... .html

编辑：Se7en
更多资讯：http://news.searchkit.cn

继续阅读 »

【搜索客社区日报】第2263期 (2026-07-08）

1. Embedding 模型选型：OpenAI / 通义 / BGE / Jina 效果与成本对比
https://mp.weixin.qq.com/s/aKZxOL_AOcJR5z5H_czYNQ

2.简短查询，正式文档： HyDE 如何在 Elasticsearch 中将语义搜索精度提升了 50%
https://blog.csdn.net/UbuntuTo ... 82914

3.不要再在账单日才发现你的 Claude 账单：Anthropic API 监控现已进入 Elastic
https://elasticstack.blog.csdn ... 40183

4.Elasticsearch 与 OpenSearch 2026：终极搜索引擎对比
https://tech-insider.org/elast ... 2026/

编辑：kin122
更多资讯：http://news.searchkit.cn

继续阅读 »

【搜索客社区日报】第2261期 (2026-07-06）

1、金融风控实时查询平台：Easysearch 在反欺诈场景的应用
https://mp.weixin.qq.com/s/DrO11iB4h_ieheu8I9uHIg

2、30分钟上手：Docker 部署 Easysearch 完整教程
https://mp.weixin.qq.com/s/g2JqCJwkVsUdMBW9ti_aHA

3、Elasticsearch：日志领域的最佳，如今也是指标领域的最佳
https://elasticstack.blog.csdn ... 78471

4、一条命令。自然语言。你的 Elasticsearch 数据，直接进入终端
https://elasticstack.blog.csdn ... 16104

5、AutoResearch-LLM：让 Agent 接手 LLM 训练优化
https://mp.weixin.qq.com/s/9qEgOV9FGk6u9_9zMLSI6A

编辑：Muse
更多资讯：http://news.searchkit.cn

继续阅读 »

【搜索客社区日报】第2262期 (2026-07-07)

1. 部署 Apache SeaTunnel 2.3.11 还能这么玩？手把手教你用 Docker 丝滑同步 Kafka 数据到 Hive 和 ES！（需要梯子）
https://dev.to/seatunnel/deplo ... -1kgi

2. 看清别人看不见的盲区！对话 Gigamon COO 深度解读安全与可观测性！
https://www.elastic.co/blog/gigamon-partnership

3. 可观测性架构变天了？从搜索堡垒走向统一数据库的演进之路！（需要梯子）
https://chenemiabrahams.medium ... 739eb

4. 别再怪你的 AI 智商低了，其实是你的数据底座没搭好！
https://www.elastic.co/blog/ai ... xxing

5. 降本增效大招！Elastic Observability 指标计费更新，性能更强价格更香！
https://www.elastic.co/blog/metrics-pricing

编辑：斯蒂文
更多资讯：http://news.searchkit.cn

继续阅读 »

【搜索客社区日报】第2260期 (2026-07-03）

1、Easysearch 在站内搜索、电商检索等业务场景中的应用
https://mp.weixin.qq.com/s/m2UMBTYEPoNOyrdG1-jRDw

2、RAG 准确率上不去？先别换模型，搞清楚你的 "命中率" 死在哪里
https://www.toutiao.com/articl ... 2566/

3、Zvec：内嵌式向量检索引擎，全端低延迟向量检索解决方案
https://www.toutiao.com/articl ... 6578/

4、我如何在 Elasticsearch 中实现查询性能的深度调优
https://blog.51cto.com/u_16213567/14700530

5、Easysearch 索引胖了三成？两个 Mapping 写法我改完立刻瘦下去
https://mp.weixin.qq.com/s/5bu ... %3D17

编辑：Fred
更多资讯：http://news.searchkit.cn

继续阅读 »

核心能力

典型应用场景

Embedding 服务

写入方法

方法一：写入链路嵌入（推荐）

方法二：离线批处理

实战

1. 建立带有向量字段的索引

2. 创建对应的 Ingest Pipeline

3. 写入数据

4. 检查数据

关于 Easysearch

核心能力

典型应用场景

Embedding 服务

写入方法

方法一：写入链路嵌入（推荐）

方法二：离线批处理

实战

1. 建立带有向量字段的索引

2. 创建对应的 Ingest Pipeline

3. 写入数据

4. 检查数据

关于 Easysearch

活动推荐

热门文章

热门话题