你不会是程序猿吧?

【搜索客社区日报】第2059期 (2025-06-20)

社区日报Fred2000 发表了文章 • 0 个评论 • 304 次浏览 • 1 天前 • 来自相关话题

1、从“技术债务”到“数据自由”:一次 12TB 的 Elasticsearch 索引优化实战
https://mp.weixin.qq.com/s/fYISSlm1eRQW5p20PKJuMA

2、向量数据库--基于图的近似最近邻搜索
https://mp.weixin.qq.com/s/vDIwUq7xYG_d3KolI6Nhig

3、搭建持久化的 INFINI Console 与 Easysearch 容器环境
https://infinilabs.cn/blog/202 ... cker/

4、百度垂搜数据管理系统弹性调度优化实践
https://my.oschina.net/u/4939618/blog/18627327

5、私有知识库 Coco AI 实战(二):摄入 MongoDB 数据
https://infinilabs.cn/blog/202 ... on-2/

编辑:Fred
更多资讯:http://news.searchkit.cn

活动预告 | Coco AI - 赋能企业搜索,打造专属智能助手【INFINI Workshop 第三期 -上海站】

活动INFINI Labs 小助手 发表了文章 • 0 个评论 • 619 次浏览 • 4 天前 • 来自相关话题

![](https://infinilabs.cn/img/blog ... bg.png)

在生成式 AI 快速演进的今天,企业如何构建智能、高效、安全的搜索与交互系统,已成为提升信息利用效率与用户体验的关键。本次 Workshop 聚焦于极限科技推出的 Coco AI —— 一款完全开源、跨平台的企业级智能搜索与助手系统,带您深入了解其核心能力、技术架构与落地实践。

无论您是希望提升组织内部搜索效率的 IT 管理者,构建智能化办公系统的产品/研发团队,还是关注 AI 技术落地的开发者与创业者,本次活动都将带来满满干货,是一次不可错过的学习与交流机会。

活动时间:2025 年 7 月 10 日 13:30 ~ 17:30
活动地点:上海静安武宁南路 1 号 WeWork(越商大厦)三楼
报名链接:<https://hdxu.cn/1ffb5>;

内容摘要


  • 企业多源异构数据的统一搜索方案
  • Coco AI 如何构建类 ChatGPT 式智能问答助手
  • Demo 演示:Coco AI 实现企业内部文档语义搜索与智能对话
  • 案例实战:用 Coco AI 打造 Elasticsearch 智能助手
  • 开源生态如何推动 Coco AI 持续创新
  • 下一代企业 AI 搜索的演进趋势与 Coco AI 路线图

    关于 Coco AI


    Coco AI - 为现代团队打造的统一搜索与 AI 智能助手

    Coco AI 是一款完全开源、跨平台的企业级智能搜索与助手系统,专为现代企业打造。它通过统一搜索入口,连接企业内外部的异构数据源,融合大模型能力,帮助团队高效访问知识,智能决策协作。

    ![](https://infinilabs.cn//img/blog/banner/coco.png)

    现代企业的三大痛点:

    1. 数据分散,信息孤岛严重
      企业数据散落在本地文件系统、云存储(如 S3)、协作工具(如 Notion、Google Workspace)、知识平台(如语雀)、以及代码仓库(如 GitHub)等多个系统中。员工在多个平台之间频繁切换,导致信息获取效率低下,工作成本居高不下。

    2. 数据敏感,安全与隐私风险高
      企业数据往往涉及敏感信息,不适合上云或调用公有云的大模型服务。像豆包、纳米搜索、Kimi 等流行 AI 工具由于无法部署在本地,难以在企业环境中落地使用。

    3. 数据沉睡,知识难以利用
      企业多年积累的大量文档和资料,静静躺在角落却难以调用。传统知识管理依赖人工整理,效率低下,维护困难,知识资产无法真正发挥价值。

      Coco AI 解决方案:

  • 统一搜索入口,跨平台连接数据:支持连接本地与云端多种数据源,包括文件、协作平台、知识库、代码仓库等,一站式搜索和信息聚合。
  • 私有化部署,保障数据安全:完全开源,自主可控,可私有部署,数据不出企业,满足高安全、高合规场景需求。
  • 融合大模型,构建智能助手:接入 DeepSeek 等先进大模型,支持语义理解、自然语言问答、智能推荐,激活沉睡数据,打造真正“会思考”的企业知识中枢。

    以下是 Coco AI 项目地址, 可以先睹为快, 欢迎 Star 转发分享~

    项目主页:

  • <https://coco.rs>;

    开源地址:

  • <https://github.com/infinilabs/coco-app>;
  • <https://github.com/infinilabs/coco-server>;

    参会提示


  • 请务必自备电脑;
  • 如有任何疑问可添加 INFINI Labs 小助手(微信号: INFINI-Labs)进行联系

Easysearch 索引备份之 Clone API

EasysearchINFINI Labs 小助手 发表了文章 • 0 个评论 • 666 次浏览 • 4 天前 • 来自相关话题


在日常运维 Easysearch 的过程中,备份数据是一项重要工作。为了确保数据安全和业务连续性,我们可能需要了解并掌握多种备份索引的方法,以便应对不同的场景。我们先梳理下常用的备份方法有哪些。

Snapshot


Easysearch 的 Snapshot(快照) 是一种官方支持的集群数据备份与恢复机制,通过将索引数据、集群状态(如设置、模板)和分片分配信息保存到外部存储仓库(如本地文件系统、AWS S3、华为云 OBS 等)实现全量或增量备份。其核心原理是复制索引的 Lucene 分片文件,并利用段文件(Segment)的不可变性实现增量存储优化。

快照的优点包括:

  1. 高效性:增量备份仅存储新增或修改的段文件,显著节省存储空间和网络传输成本;
  2. 可靠性:支持跨集群恢复和灾难性故障修复,避免直接拷贝数据目录导致的数据不一致风险;
  3. 灵活性:可指定备份特定索引,并支持版本兼容性恢复(需遵循版本匹配规则);
  4. 自动化:通过策略(Snapshot Policy)实现定时备份管理。

    缺点则包括:

  5. 时效性限制:无法实现实时备份,是一种 PIT (Point in Time) 备份;
  6. 需预先配置:需预先注册仓库并确保存储系统可用性;
  7. 恢复约束:恢复时需关闭或删除目标索引,或恢复时修改索引名称;
  8. 依赖主分片状态:若主分片不可用(如节点故障),快照任务会失败。

    总体而言,Snapshot 是生产环境首选的备份方案,尤其适合大规模数据归档和跨环境迁移,但需权衡备份频率与存储成本。详情可以参考[文档](https://infinilabs.cn/blog/202 ... ackup/)。

    Reindex


    Easysearch 的 Reindex 是一种通过 API 将数据从一个索引复制到另一个索引的备份方法,适用于同集群或跨集群的数据迁移与重建。其核心操作是使用 POST _reindex 命令将源索引的文档批量读取并写入目标索引。备份时需确保目标索引的 Mapping 与源索引兼容(字段类型一致),并通过 size 参数控制批量处理量(如 "size": 2000)以优化性能。对于跨集群备份,需在目标集群配置文件中添加源集群 IP 白名单(reindex.remote.whitelist)并提供认证信息,详情可以参考[文档](https://infinilabs.cn/blog/202 ... emote/)。

    优点

  9. 灵活性:支持通过 query 参数筛选特定数据备份(如仅迁移某字段值符合条件的数据);
  10. 无缝整合:可在目标索引中修改索引结构(如分片数、字段类型);
  11. 并发及限流:支持设置并发度和限流阈值,适应不同的场景;
  12. 操作便捷:无需额外存储配置,适合临时备份或小规模迁移。

    缺点

  13. 资源消耗大:reindex 本质是数据写入,要占用 CPU、内存和磁盘 IO,可能影响集群性能;
  14. 网络依赖:跨集群备份依赖网络带宽,高延迟或带宽不足会显著拖慢速度;
  15. 中断风险:reindex 一旦中途报错,无法继续重试,只能从头再来;
  16. 时效性局限:备份完成后新增数据需手动触发二次迁移,无法实现实时同步。

    建议在低峰期执行 Reindex,并优先采用快照(Snapshot)进行生产环境长期备份,Reindex 更适合索引结构调整或小规模数据迁移场景。

    工具备份


    还有些工具支持将 Easyearch 的索引数据备份成一个文件,比如 elasticsearch-dump、Logstash 等。数据量较大的情况下,这些工具可能会有效率问题,一般在特定场景下有用,在此不展开介绍。

    Clone API


    Easysearch 的 Clone API 并不是传统意义上的备份工具,其核心设计目标是通过复制索引的底层段文件(Segment)快速生成一个与原索引数据一致的新索引,包括源索引是 Mapping 和 Setting 也一起复制。

    具体操作步骤如下:

  17. 设置源索引为只读状态

    bash<br /> PUT /.infini_metrics-000004/_settings<br /> {<br /> "settings": {<br /> "index.blocks.write": true<br /> }<br /> }<br />

    ![](https://infinilabs.cn/img/blog ... /1.png)

  18. 执行 Clone 操作

    bash<br /> POST .infini_metrics-000004/_clone/backup_infini_metrics-000004<br />

    ![](https://infinilabs.cn/img/blog ... /2.png)

  19. 设置源索引和新索引为可读写状态

    复制是新索引也会是只可读状态,大家根据需要选择是否都改成可读写状态。

    bash<br /> PUT /.infini_metrics-000004,backup_infini_metrics-000004/_settings<br /> {<br /> "settings": {<br /> "index.blocks.write": null<br /> }<br /> }<br />

    ![](https://infinilabs.cn/img/blog ... /3.png)

    优点

    • 极速复制:直接复用底层段文件,无需重写数据,适用于大数据量快速复制。
    • 保留定义: 直接使用源索引的 Setting 和 Mapping。
    • 存储优化:可调整目标索引的副本数,节省资源。

      缺点

    • 业务影响:克隆前需修改源索引为只可读,导致写入中断,影响服务可用性。
    • 不够灵活:沿用源索引 Setting 和 Mapping 无法修改(副本数可修改)。
    • 扩展性不足:不能跨集群,目标索引只能在本集群。

      Clone API 有自己鲜明的特点,对比 Snapshot,它不用恢复过程,目标索引直接在集群中了。对比 Reindex,它无需重写数据和先创建索引,更加高效。在特定场景下非常有用,也可以搭配其他备份方法一起使用。

      关于 Easysearch


      ![](https://infinilabs.cn/img/blog ... er.png)

      INFINI Easysearch 是一个分布式的搜索型数据库,实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch,同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。

      官网文档:<https://docs.infinilabs.com/easysearch>;

      作者:杨帆,极限科技(INFINI Labs)高级解决方案架构师、《老杨玩搜索》栏目 B 站 UP 主,拥有十余年金融行业服务工作经验,熟悉 Linux、数据库、网络等领域。目前主要从事 Easysearch、Elasticsearch 等搜索引擎的技术支持工作,服务国内私有化部署的客户。
      原文:https://infinilabs.cn/blog/202 ... -api/

【搜索客社区日报】第2055期 (2025-06-16)

社区日报Muses 发表了文章 • 0 个评论 • 713 次浏览 • 4 天前 • 来自相关话题

1、Easysearch 索引备份之 Clone API
https://infinilabs.cn/blog/202 ... -api/

2、私有知识库 Coco AI 实战(一):Coco Server Linux 平台部署
https://infinilabs.cn/blog/202 ... on-1/

3、风口|继MoE、MCP与A2A之后,下一个模型协作风口是MoA
https://mp.weixin.qq.com/s/_yv9gdBKv1yDK0rQNtbbiQ

4、干货:手把手搭建ElasticSearch日志监控告警
https://mp.weixin.qq.com/s/JH2AIAnxdFSPhsG7h-9y_g

5、搭建持久化的 INFINI Console 与 Easysearch 容器环境
https://infinilabs.cn/blog/202 ... cker/

编辑:Muse
更多资讯:http://news.searchkit.cn

【搜索客社区日报】第2056期 (2025-06-17)

社区日报God_lockin 发表了文章 • 0 个评论 • 717 次浏览 • 4 天前 • 来自相关话题



1. 搜索系统分布式事务实战(需要梯子)
https://godfreym.medium.com/cr ... 42509
https://godfreym.medium.com/cr ... 496c9
2. ES node 里的热线程了解下?(需要梯子)
https://medium.com/%40stefnest ... ab4e7
3. 拿Helm在K8S里装ES全家(需要梯子)
https://medium.com/%40mehmetka ... 37da6
编辑:斯蒂文
更多资讯:http://news.searchkit.cn
 

【搜索客社区日报】第2054期 (2025-06-12)

社区日报Se7en 发表了文章 • 0 个评论 • 1337 次浏览 • 2025-06-12 17:54 • 来自相关话题

1.Nacos MCP Router 新版发布:支持 Docker 远程部署,多通信协议相互转换
https://mp.weixin.qq.com/s/PceGq8MIwda6tVYfoMy1iw
2.Prefix Caching 详解:实现 KV Cache 的跨请求高效复用
https://mp.weixin.qq.com/s/_FnXC7hiQtwyzU-ISvU0CA
3.MCP Server 之旅第 5 站:服务鉴权体系解密
https://mp.weixin.qq.com/s/C1d_uPAXQ38Pe1nFdrB1nQ
4.vLLM中的推测式解码技术
https://www.bilibili.com/video/BV1hMj4zDEax

编辑:Se7en
更多资讯:http://news.searchkit.cn

Easysearch 迁移数据之 Reindex From Remote

EasysearchINFINI Labs 小助手 发表了文章 • 0 个评论 • 1347 次浏览 • 2025-06-12 15:24 • 来自相关话题

在之前的博客《[从 Elasticsearch 迁移到 Easysearch 指引](https://infinilabs.cn/blog/202 ... earch/)》中介绍过如何把索引从 Elasticsearch 迁移到 Easysearch。有时候想临时从 Elasticsearch 迁移点儿数据做测试,数据量不大,也可尝试使用 Reindex From Remote 的方法。

测试环境介绍


本次主要测试从远程集群索引数据,reindex 还有很多其他使用方式,详情请参考[官方文档](https://docs.infinilabs.com/ea ... -data/)。

  • [Easysearch](https://infinilabs.cn/products/easysearch/) 版本:1.10.0,监听 localhost:9200
  • Elasticsearch 版本:6.8.23,监听 localhost:9201
  • [INFINI Console](https://infinilabs.cn/products/console/) 版本:1.25.1(运行 reindex 命令用)

    Reindex API


    Reindex 可以从本地或远程集群将源索引数据写入本地目标索引。使用简单,有以下注意点:

  • 源索引启用 _source ,这个默认都是启用的
  • 在调用 _reindex 之前,应该先创建、配置目标索引
  • 如果源索引在远程集群,必须在 easysearch.yml 中配置 reindex.remote.whitelist 设置
  • 使用 POST 调用

    测试过程


    我们先不设置白名单,直接从远程集群 reindex 看看会怎样。
    ![](https://infinilabs.cn/img/blog ... /1.png)

    报错提示 localhost:9201 不在 reindex.remote.whitelist 中。

    正常操作步骤

    1. 编辑 Easysearch 配置文件 easysearch.yml,添加白名单,重启生效。

      plain<br /> reindex.remote.whitelist: [localhost:9201]<br />

    2. 建立目标索引,指定 setting 和 mapping

      reindex 不会复制源索引的 setting 和 mapping,需要提前创建目标索引,否则会使用默认设置。

    3. 执行 reindex 命令

      ![](https://infinilabs.cn/img/blog ... /2.png)

      执行成功。需要注意的是,如果数据量比较大,reindex 命令会超时,这个没关系,任务会继续在后台执行。也可以在执行 reindex 的时候添加参数 wait_for_completion=false 不等待执行完成,直接返回任务 id。

      plain<br /> POST _reindex?wait_for_completion=false<br />

      ![](https://infinilabs.cn/img/blog ... /3.png)

      针对有认证的集群,reindex 可以指定以下选项:

      ![](https://infinilabs.cn/img/blog ... /4.png)

      总结


      针对临时数据量不大的场景可尝试使用 reindex 迁移数据。如果数据量大了,reindex 迁移速度不是很高效,而且如果中途出现错误迁移中断了,需要重新 reindex 不方便,建议使用 [INFINI Console 进行数据迁移](https://docs.infinilabs.com/co ... ation/)。

      关于 Easysearch


      ![](https://infinilabs.cn/img/blog ... er.png)

      INFINI Easysearch 是一个分布式的搜索型数据库,实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch,同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。

      官网文档:<https://docs.infinilabs.com/easysearch>;

      作者:杨帆,极限科技(INFINI Labs)高级解决方案架构师、《老杨玩搜索》栏目 B 站 UP 主,拥有十余年金融行业服务工作经验,熟悉 Linux、数据库、网络等领域。目前主要从事 Easysearch、Elasticsearch 等搜索引擎的技术支持工作,服务国内私有化部署的客户。
      原文:https://infinilabs.cn/blog/202 ... mote/

【搜索客社区日报】第2053期 (2025-06-11)

社区日报kin122 发表了文章 • 0 个评论 • 1443 次浏览 • 2025-06-11 13:18 • 来自相关话题

1.南方政务行业Flink写入大规模ES集群(100节点)故障问题定位解决
https://mp.weixin.qq.com/s/jweFzFp9GN56KbV7ChlLkQ

2.运维快看!如何基于Deepseek打造日志分析智能系统?
https://mp.weixin.qq.com/s/nzgbFqorPE2bNvGQ0lcSkA

3.节省 90% 存储!源码级揭秘腾讯云 ES 向量搜索的优化之道
https://blog.csdn.net/UbuntuTo ... 63465

4.ES8 向量功能窥探系列(一):混合搜索功能初探与增强
https://blog.csdn.net/UbuntuTo ... 09817

5.ES8 向量功能窥探系列(二):向量数据的存储与优化
https://blog.csdn.net/UbuntuTo ... 10255



编辑:kin122 
更多资讯:http://news.searchkit.cn

【搜索客社区日报】第2052期 (2025-06-10)

社区日报God_lockin 发表了文章 • 0 个评论 • 1650 次浏览 • 2025-06-10 08:44 • 来自相关话题

1. 在phonepe,我们这样用ES(需要梯子)
https://medium.com/%40nitishgo ... 04805
2. 你们也遇到过field映射的问题吗?(需要梯子)
https://medium.com/%40gireesha ... e1032
3. 来看看老司机是怎么无痛集群重启的(需要梯子)
https://medium.com/softtechas/ ... 99b0e
编辑:斯蒂文
更多资讯:http://news.searchkit.cn
 

【搜索客社区日报】第2051期 (2025-06-09)

社区日报Muses 发表了文章 • 0 个评论 • 1789 次浏览 • 2025-06-09 16:36 • 来自相关话题

1、使用 Elastic Cloud Hosted 优化长期数据保留:确保政府合规性和效率
https://mp.weixin.qq.com/s/tzCQHfRP7Yi8L-PKePAT_g

2、Elasticsearch与milvus作为RAG向量库怎么选
https://mp.weixin.qq.com/s/njh3mOed7SP_OmdWxVuWIQ

3、向量数据库--基于图的近似最近邻搜索
https://mp.weixin.qq.com/s/vDIwUq7xYG_d3KolI6Nhig

4、Qwen3新成员:Embedding系列模型登场!
https://mp.weixin.qq.com/s/ArLFeE6oTk0UwxwW5WHtjA

5、Response指南:为什么90%的多模态RAG,一做就会,一用就废?
https://mp.weixin.qq.com/s/ARKRV3No9orWPL9E_J7UJQ

编辑:Muse
更多资讯:http://news.searchkit.cn

【搜索客社区日报】第2050期 (2025-06-06)

社区日报Fred2000 发表了文章 • 0 个评论 • 2357 次浏览 • 2025-06-06 11:36 • 来自相关话题

1、OpenAI 发布了两项 ChatGPT 新功能:「连接器(Connectors)」与「记录模式(Record Mode)」
https://mp.weixin.qq.com/s/2x_z04W-_mjKpqpWcmZPzA

2、私有知识库 Coco AI 实战(五):打造 ES 新特性查询助手
https://blog.csdn.net/yangmf20 ... 27174

3、私有知识库 Coco AI 实战(六):打造 ES Mapping 小助手
https://blog.csdn.net/yangmf20 ... 27210

4、向量配方:使用 OpenSearch 构建混合搜索应用
https://opensearch.org/blog/re ... earch

5、使用 Logstash 迁移 MongoDB 数据到 Easysearch
https://infinilabs.cn/blog/202 ... stash

编辑:Fred
更多资讯:http://news.searchkit.cn

【搜索客社区日报】第2049期 (2025-06-05)

社区日报Se7en 发表了文章 • 0 个评论 • 2234 次浏览 • 2025-06-05 19:49 • 来自相关话题

1.使用压缩有限状态机对本地 LLM 进行快速 JSON 解码
https://lmsys.org/blog/2024-02-05-compressed-fsm/
2.Elasticsearch 中的大型文档分块 - 递归分块策略
https://www.elastic.co/search- ... lines
3.OpenTelemetry × Elastic Observability 系列(一):整体架构介绍
https://mp.weixin.qq.com/s/h8D1Z8_bI8GcM8kwyNlZeA
4.原理&图解vLLM Automatic Prefix Cache(RadixAttention): 首Token时延优化
https://zhuanlan.zhihu.com/p/693556044

编辑:Se7en
更多资讯:http://news.searchkit.cn

【搜索客社区日报】第2048期 (2025-06-04)

社区日报kin122 发表了文章 • 0 个评论 • 2349 次浏览 • 2025-06-04 14:39 • 来自相关话题

1.向量数据库:两种度量空间?一个算法搞定!
https://mp.weixin.qq.com/s/pLoZODAnKsosxIuLpv1V0A

2.千亿级向量索引的秘密武器:一文详解蚂蚁集团的工程实践和开源突破
https://mp.weixin.qq.com/s/ksxfXCRqGas1gLAycr1P4A

3.还在用 ELK?你已经 Out 了
https://mp.weixin.qq.com/s/mOvHuL1gEid9sGcjRYKmKQ


编辑:kin122 
更多资讯:http://news.searchkit.cn

【搜索客社区日报】第2046期 (2025-06-03)

社区日报God_lockin 发表了文章 • 0 个评论 • 2513 次浏览 • 2025-06-03 21:39 • 来自相关话题

1. 为啥搜索引擎的副本会不同步哩(需要梯子)
https://dineshkumarnaik.medium ... 8e127
2. 被证书过期搞的欲仙欲死的是谁我不说(需要梯子)
https://faun.pub/dont-let-ssl- ... b5fc0
3. ES的自动扩容小助手好用不(需要梯子)
https://medium.com/%40holidu/e ... 2b69c
编辑:斯蒂文
更多资讯:http://news.searchkit.cn
 

【搜索客社区日报】第2045期 (2025-05-29)

社区日报Se7en 发表了文章 • 0 个评论 • 3433 次浏览 • 2025-05-29 20:19 • 来自相关话题

1.AIBrix v0.3.0 发布:KVCache 多级卸载、前缀缓存、公平路由与基准测试工具
https://mp.weixin.qq.com/s/1__uUX7xMoQ6q7HFXrP2Bw
2.vLLM 核心技术 PagedAttention 原理详解
https://mp.weixin.qq.com/s/94-kEyHui0BLO5S-80eAiw
3.【万字长文】大模型开源开发全景与趋势解读
https://mp.weixin.qq.com/s/2xwyGPZppdYmU_cDX3Xhyg
4.技术干货|深度剖析将 Kafka 构建在 S3 上的技术挑战与最佳实践
https://mp.weixin.qq.com/s/_WggDfOoXhiIgFBWWROXnQ

编辑:Se7en
更多资讯:http://news.searchkit.cn