【搜索客社区日报】第2059期 (2025-06-20)
社区日报 • Fred2000 发表了文章 • 0 个评论 • 304 次浏览 • 1 天前
https://mp.weixin.qq.com/s/fYISSlm1eRQW5p20PKJuMA
2、向量数据库--基于图的近似最近邻搜索
https://mp.weixin.qq.com/s/vDIwUq7xYG_d3KolI6Nhig
3、搭建持久化的 INFINI Console 与 Easysearch 容器环境
https://infinilabs.cn/blog/202 ... cker/
4、百度垂搜数据管理系统弹性调度优化实践
https://my.oschina.net/u/4939618/blog/18627327
5、私有知识库 Coco AI 实战(二):摄入 MongoDB 数据
https://infinilabs.cn/blog/202 ... on-2/
编辑:Fred
更多资讯:http://news.searchkit.cn
活动预告 | Coco AI - 赋能企业搜索,打造专属智能助手【INFINI Workshop 第三期 -上海站】
活动 • INFINI Labs 小助手 发表了文章 • 0 个评论 • 619 次浏览 • 4 天前

在生成式 AI 快速演进的今天,企业如何构建智能、高效、安全的搜索与交互系统,已成为提升信息利用效率与用户体验的关键。本次 Workshop 聚焦于极限科技推出的 Coco AI —— 一款完全开源、跨平台的企业级智能搜索与助手系统,带您深入了解其核心能力、技术架构与落地实践。
无论您是希望提升组织内部搜索效率的 IT 管理者,构建智能化办公系统的产品/研发团队,还是关注 AI 技术落地的开发者与创业者,本次活动都将带来满满干货,是一次不可错过的学习与交流机会。
活动时间:2025 年 7 月 10 日 13:30 ~ 17:30
活动地点:上海静安武宁南路 1 号 WeWork(越商大厦)三楼
报名链接:<https://hdxu.cn/1ffb5>
内容摘要
- 企业多源异构数据的统一搜索方案
- Coco AI 如何构建类 ChatGPT 式智能问答助手
- Demo 演示:Coco AI 实现企业内部文档语义搜索与智能对话
- 案例实战:用 Coco AI 打造 Elasticsearch 智能助手
- 开源生态如何推动 Coco AI 持续创新
- 下一代企业 AI 搜索的演进趋势与 Coco AI 路线图
关于 Coco AI
Coco AI - 为现代团队打造的统一搜索与 AI 智能助手
Coco AI 是一款完全开源、跨平台的企业级智能搜索与助手系统,专为现代企业打造。它通过统一搜索入口,连接企业内外部的异构数据源,融合大模型能力,帮助团队高效访问知识,智能决策协作。

现代企业的三大痛点:
- 数据分散,信息孤岛严重
企业数据散落在本地文件系统、云存储(如 S3)、协作工具(如 Notion、Google Workspace)、知识平台(如语雀)、以及代码仓库(如 GitHub)等多个系统中。员工在多个平台之间频繁切换,导致信息获取效率低下,工作成本居高不下。
- 数据敏感,安全与隐私风险高
企业数据往往涉及敏感信息,不适合上云或调用公有云的大模型服务。像豆包、纳米搜索、Kimi 等流行 AI 工具由于无法部署在本地,难以在企业环境中落地使用。
- 数据沉睡,知识难以利用
企业多年积累的大量文档和资料,静静躺在角落却难以调用。传统知识管理依赖人工整理,效率低下,维护困难,知识资产无法真正发挥价值。
Coco AI 解决方案:
- 数据分散,信息孤岛严重
- 统一搜索入口,跨平台连接数据:支持连接本地与云端多种数据源,包括文件、协作平台、知识库、代码仓库等,一站式搜索和信息聚合。
- 私有化部署,保障数据安全:完全开源,自主可控,可私有部署,数据不出企业,满足高安全、高合规场景需求。
- 融合大模型,构建智能助手:接入 DeepSeek 等先进大模型,支持语义理解、自然语言问答、智能推荐,激活沉睡数据,打造真正“会思考”的企业知识中枢。
以下是 Coco AI 项目地址, 可以先睹为快, 欢迎 Star 转发分享~
项目主页:
- <https://coco.rs>
开源地址:
- <https://github.com/infinilabs/coco-app>
- <https://github.com/infinilabs/coco-server>
参会提示
- 请务必自备电脑;
- 如有任何疑问可添加 INFINI Labs 小助手(微信号: INFINI-Labs)进行联系
Easysearch 索引备份之 Clone API
Easysearch • INFINI Labs 小助手 发表了文章 • 0 个评论 • 666 次浏览 • 4 天前
在日常运维 Easysearch 的过程中,备份数据是一项重要工作。为了确保数据安全和业务连续性,我们可能需要了解并掌握多种备份索引的方法,以便应对不同的场景。我们先梳理下常用的备份方法有哪些。
Snapshot
Easysearch 的 Snapshot(快照) 是一种官方支持的集群数据备份与恢复机制,通过将索引数据、集群状态(如设置、模板)和分片分配信息保存到外部存储仓库(如本地文件系统、AWS S3、华为云 OBS 等)实现全量或增量备份。其核心原理是复制索引的 Lucene 分片文件,并利用段文件(Segment)的不可变性实现增量存储优化。
快照的优点包括:
- 高效性:增量备份仅存储新增或修改的段文件,显著节省存储空间和网络传输成本;
- 可靠性:支持跨集群恢复和灾难性故障修复,避免直接拷贝数据目录导致的数据不一致风险;
- 灵活性:可指定备份特定索引,并支持版本兼容性恢复(需遵循版本匹配规则);
- 自动化:通过策略(Snapshot Policy)实现定时备份管理。
缺点则包括:
- 时效性限制:无法实现实时备份,是一种 PIT (Point in Time) 备份;
- 需预先配置:需预先注册仓库并确保存储系统可用性;
- 恢复约束:恢复时需关闭或删除目标索引,或恢复时修改索引名称;
- 依赖主分片状态:若主分片不可用(如节点故障),快照任务会失败。
总体而言,Snapshot 是生产环境首选的备份方案,尤其适合大规模数据归档和跨环境迁移,但需权衡备份频率与存储成本。详情可以参考[文档](https://infinilabs.cn/blog/202 ... ackup/)。
Reindex
Easysearch 的 Reindex 是一种通过 API 将数据从一个索引复制到另一个索引的备份方法,适用于同集群或跨集群的数据迁移与重建。其核心操作是使用POST _reindex
命令将源索引的文档批量读取并写入目标索引。备份时需确保目标索引的 Mapping 与源索引兼容(字段类型一致),并通过size
参数控制批量处理量(如"size": 2000
)以优化性能。对于跨集群备份,需在目标集群配置文件中添加源集群 IP 白名单(reindex.remote.whitelist
)并提供认证信息,详情可以参考[文档](https://infinilabs.cn/blog/202 ... emote/)。
优点:
- 灵活性:支持通过
query
参数筛选特定数据备份(如仅迁移某字段值符合条件的数据); - 无缝整合:可在目标索引中修改索引结构(如分片数、字段类型);
- 并发及限流:支持设置并发度和限流阈值,适应不同的场景;
- 操作便捷:无需额外存储配置,适合临时备份或小规模迁移。
缺点:
- 资源消耗大:reindex 本质是数据写入,要占用 CPU、内存和磁盘 IO,可能影响集群性能;
- 网络依赖:跨集群备份依赖网络带宽,高延迟或带宽不足会显著拖慢速度;
- 中断风险:reindex 一旦中途报错,无法继续重试,只能从头再来;
- 时效性局限:备份完成后新增数据需手动触发二次迁移,无法实现实时同步。
建议在低峰期执行 Reindex,并优先采用快照(Snapshot)进行生产环境长期备份,Reindex 更适合索引结构调整或小规模数据迁移场景。
工具备份
还有些工具支持将 Easyearch 的索引数据备份成一个文件,比如 elasticsearch-dump、Logstash 等。数据量较大的情况下,这些工具可能会有效率问题,一般在特定场景下有用,在此不展开介绍。
Clone API
Easysearch 的 Clone API 并不是传统意义上的备份工具,其核心设计目标是通过复制索引的底层段文件(Segment)快速生成一个与原索引数据一致的新索引,包括源索引是 Mapping 和 Setting 也一起复制。
具体操作步骤如下:
- 设置源索引为只读状态
bash<br /> PUT /.infini_metrics-000004/_settings<br /> {<br /> "settings": {<br /> "index.blocks.write": true<br /> }<br /> }<br />

- 执行 Clone 操作
bash<br /> POST .infini_metrics-000004/_clone/backup_infini_metrics-000004<br />

- 设置源索引和新索引为可读写状态
复制是新索引也会是只可读状态,大家根据需要选择是否都改成可读写状态。
bash<br /> PUT /.infini_metrics-000004,backup_infini_metrics-000004/_settings<br /> {<br /> "settings": {<br /> "index.blocks.write": null<br /> }<br /> }<br />

优点:
- 极速复制:直接复用底层段文件,无需重写数据,适用于大数据量快速复制。
- 保留定义: 直接使用源索引的 Setting 和 Mapping。
- 存储优化:可调整目标索引的副本数,节省资源。
缺点:
- 业务影响:克隆前需修改源索引为只可读,导致写入中断,影响服务可用性。
- 不够灵活:沿用源索引 Setting 和 Mapping 无法修改(副本数可修改)。
- 扩展性不足:不能跨集群,目标索引只能在本集群。
Clone API 有自己鲜明的特点,对比 Snapshot,它不用恢复过程,目标索引直接在集群中了。对比 Reindex,它无需重写数据和先创建索引,更加高效。在特定场景下非常有用,也可以搭配其他备份方法一起使用。
关于 Easysearch

INFINI Easysearch 是一个分布式的搜索型数据库,实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch,同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。
官网文档:<https://docs.infinilabs.com/easysearch>
作者:杨帆,极限科技(INFINI Labs)高级解决方案架构师、《老杨玩搜索》栏目 B 站 UP 主,拥有十余年金融行业服务工作经验,熟悉 Linux、数据库、网络等领域。目前主要从事 Easysearch、Elasticsearch 等搜索引擎的技术支持工作,服务国内私有化部署的客户。
原文:https://infinilabs.cn/blog/202 ... -api/
- 极速复制:直接复用底层段文件,无需重写数据,适用于大数据量快速复制。
【搜索客社区日报】第2055期 (2025-06-16)
社区日报 • Muses 发表了文章 • 0 个评论 • 713 次浏览 • 4 天前
https://infinilabs.cn/blog/202 ... -api/
2、私有知识库 Coco AI 实战(一):Coco Server Linux 平台部署
https://infinilabs.cn/blog/202 ... on-1/、
3、风口|继MoE、MCP与A2A之后,下一个模型协作风口是MoA
https://mp.weixin.qq.com/s/_yv9gdBKv1yDK0rQNtbbiQ
4、干货:手把手搭建ElasticSearch日志监控告警
https://mp.weixin.qq.com/s/JH2AIAnxdFSPhsG7h-9y_g
5、搭建持久化的 INFINI Console 与 Easysearch 容器环境
https://infinilabs.cn/blog/202 ... cker/
编辑:Muse
更多资讯:http://news.searchkit.cn
【搜索客社区日报】第2056期 (2025-06-17)
社区日报 • God_lockin 发表了文章 • 0 个评论 • 717 次浏览 • 4 天前
1. 搜索系统分布式事务实战(需要梯子)
https://godfreym.medium.com/cr ... 42509
https://godfreym.medium.com/cr ... 496c9
2. ES node 里的热线程了解下?(需要梯子)
https://medium.com/%40stefnest ... ab4e7
3. 拿Helm在K8S里装ES全家(需要梯子)
https://medium.com/%40mehmetka ... 37da6
编辑:斯蒂文
更多资讯:http://news.searchkit.cn
【搜索客社区日报】第2054期 (2025-06-12)
社区日报 • Se7en 发表了文章 • 0 个评论 • 1337 次浏览 • 2025-06-12 17:54
https://mp.weixin.qq.com/s/PceGq8MIwda6tVYfoMy1iw
2.Prefix Caching 详解:实现 KV Cache 的跨请求高效复用
https://mp.weixin.qq.com/s/_FnXC7hiQtwyzU-ISvU0CA
3.MCP Server 之旅第 5 站:服务鉴权体系解密
https://mp.weixin.qq.com/s/C1d_uPAXQ38Pe1nFdrB1nQ
4.vLLM中的推测式解码技术
https://www.bilibili.com/video/BV1hMj4zDEax
编辑:Se7en
更多资讯:http://news.searchkit.cn
Easysearch 迁移数据之 Reindex From Remote
Easysearch • INFINI Labs 小助手 发表了文章 • 0 个评论 • 1347 次浏览 • 2025-06-12 15:24
在之前的博客《[从 Elasticsearch 迁移到 Easysearch 指引](https://infinilabs.cn/blog/202 ... earch/)》中介绍过如何把索引从 Elasticsearch 迁移到 Easysearch。有时候想临时从 Elasticsearch 迁移点儿数据做测试,数据量不大,也可尝试使用 Reindex From Remote 的方法。
测试环境介绍
本次主要测试从远程集群索引数据,reindex 还有很多其他使用方式,详情请参考[官方文档](https://docs.infinilabs.com/ea ... -data/)。
- [Easysearch](https://infinilabs.cn/products/easysearch/) 版本:1.10.0,监听 localhost:9200
- Elasticsearch 版本:6.8.23,监听 localhost:9201
- [INFINI Console](https://infinilabs.cn/products/console/) 版本:1.25.1(运行 reindex 命令用)
Reindex API
Reindex 可以从本地或远程集群将源索引数据写入本地目标索引。使用简单,有以下注意点:
- 源索引启用 _source ,这个默认都是启用的
- 在调用 _reindex 之前,应该先创建、配置目标索引
- 如果源索引在远程集群,必须在 easysearch.yml 中配置 reindex.remote.whitelist 设置
- 使用 POST 调用
测试过程
我们先不设置白名单,直接从远程集群 reindex 看看会怎样。

报错提示 localhost:9201 不在 reindex.remote.whitelist 中。
正常操作步骤
- 编辑 Easysearch 配置文件 easysearch.yml,添加白名单,重启生效。
plain<br /> reindex.remote.whitelist: [localhost:9201]<br />
- 建立目标索引,指定 setting 和 mapping
reindex 不会复制源索引的 setting 和 mapping,需要提前创建目标索引,否则会使用默认设置。
- 执行 reindex 命令

执行成功。需要注意的是,如果数据量比较大,reindex 命令会超时,这个没关系,任务会继续在后台执行。也可以在执行 reindex 的时候添加参数 wait_for_completion=false 不等待执行完成,直接返回任务 id。
plain<br /> POST _reindex?wait_for_completion=false<br />

针对有认证的集群,reindex 可以指定以下选项:

总结
针对临时数据量不大的场景可尝试使用 reindex 迁移数据。如果数据量大了,reindex 迁移速度不是很高效,而且如果中途出现错误迁移中断了,需要重新 reindex 不方便,建议使用 [INFINI Console 进行数据迁移](https://docs.infinilabs.com/co ... ation/)。
关于 Easysearch

INFINI Easysearch 是一个分布式的搜索型数据库,实现非结构化数据检索、全文检索、向量检索、地理位置信息查询、组合索引查询、多语种支持、聚合分析等。Easysearch 可以完美替代 Elasticsearch,同时添加和完善多项企业级功能。Easysearch 助您拥有简洁、高效、易用的搜索体验。
官网文档:<https://docs.infinilabs.com/easysearch>
作者:杨帆,极限科技(INFINI Labs)高级解决方案架构师、《老杨玩搜索》栏目 B 站 UP 主,拥有十余年金融行业服务工作经验,熟悉 Linux、数据库、网络等领域。目前主要从事 Easysearch、Elasticsearch 等搜索引擎的技术支持工作,服务国内私有化部署的客户。
原文:https://infinilabs.cn/blog/202 ... mote/
- 编辑 Easysearch 配置文件 easysearch.yml,添加白名单,重启生效。
【搜索客社区日报】第2053期 (2025-06-11)
社区日报 • kin122 发表了文章 • 0 个评论 • 1443 次浏览 • 2025-06-11 13:18
https://mp.weixin.qq.com/s/jweFzFp9GN56KbV7ChlLkQ
2.运维快看!如何基于Deepseek打造日志分析智能系统?
https://mp.weixin.qq.com/s/nzgbFqorPE2bNvGQ0lcSkA
3.节省 90% 存储!源码级揭秘腾讯云 ES 向量搜索的优化之道
https://blog.csdn.net/UbuntuTo ... 63465
4.ES8 向量功能窥探系列(一):混合搜索功能初探与增强
https://blog.csdn.net/UbuntuTo ... 09817
5.ES8 向量功能窥探系列(二):向量数据的存储与优化
https://blog.csdn.net/UbuntuTo ... 10255
编辑:kin122
更多资讯:http://news.searchkit.cn
【搜索客社区日报】第2052期 (2025-06-10)
社区日报 • God_lockin 发表了文章 • 0 个评论 • 1650 次浏览 • 2025-06-10 08:44
https://medium.com/%40nitishgo ... 04805
2. 你们也遇到过field映射的问题吗?(需要梯子)
https://medium.com/%40gireesha ... e1032
3. 来看看老司机是怎么无痛集群重启的(需要梯子)
https://medium.com/softtechas/ ... 99b0e
编辑:斯蒂文
更多资讯:http://news.searchkit.cn
【搜索客社区日报】第2051期 (2025-06-09)
社区日报 • Muses 发表了文章 • 0 个评论 • 1789 次浏览 • 2025-06-09 16:36
https://mp.weixin.qq.com/s/tzCQHfRP7Yi8L-PKePAT_g
2、Elasticsearch与milvus作为RAG向量库怎么选
https://mp.weixin.qq.com/s/njh3mOed7SP_OmdWxVuWIQ
3、向量数据库--基于图的近似最近邻搜索
https://mp.weixin.qq.com/s/vDIwUq7xYG_d3KolI6Nhig
4、Qwen3新成员:Embedding系列模型登场!
https://mp.weixin.qq.com/s/ArLFeE6oTk0UwxwW5WHtjA
5、Response指南:为什么90%的多模态RAG,一做就会,一用就废?
https://mp.weixin.qq.com/s/ARKRV3No9orWPL9E_J7UJQ
编辑:Muse
更多资讯:http://news.searchkit.cn
【搜索客社区日报】第2050期 (2025-06-06)
社区日报 • Fred2000 发表了文章 • 0 个评论 • 2357 次浏览 • 2025-06-06 11:36
https://mp.weixin.qq.com/s/2x_z04W-_mjKpqpWcmZPzA
2、私有知识库 Coco AI 实战(五):打造 ES 新特性查询助手
https://blog.csdn.net/yangmf20 ... 27174
3、私有知识库 Coco AI 实战(六):打造 ES Mapping 小助手
https://blog.csdn.net/yangmf20 ... 27210
4、向量配方:使用 OpenSearch 构建混合搜索应用
https://opensearch.org/blog/re ... earch
5、使用 Logstash 迁移 MongoDB 数据到 Easysearch
https://infinilabs.cn/blog/202 ... stash
编辑:Fred
更多资讯:http://news.searchkit.cn
【搜索客社区日报】第2049期 (2025-06-05)
社区日报 • Se7en 发表了文章 • 0 个评论 • 2234 次浏览 • 2025-06-05 19:49
https://lmsys.org/blog/2024-02-05-compressed-fsm/
2.Elasticsearch 中的大型文档分块 - 递归分块策略
https://www.elastic.co/search- ... lines
3.OpenTelemetry × Elastic Observability 系列(一):整体架构介绍
https://mp.weixin.qq.com/s/h8D1Z8_bI8GcM8kwyNlZeA
4.原理&图解vLLM Automatic Prefix Cache(RadixAttention): 首Token时延优化
https://zhuanlan.zhihu.com/p/693556044
编辑:Se7en
更多资讯:http://news.searchkit.cn
【搜索客社区日报】第2048期 (2025-06-04)
社区日报 • kin122 发表了文章 • 0 个评论 • 2349 次浏览 • 2025-06-04 14:39
https://mp.weixin.qq.com/s/pLoZODAnKsosxIuLpv1V0A
2.千亿级向量索引的秘密武器:一文详解蚂蚁集团的工程实践和开源突破
https://mp.weixin.qq.com/s/ksxfXCRqGas1gLAycr1P4A
3.还在用 ELK?你已经 Out 了
https://mp.weixin.qq.com/s/mOvHuL1gEid9sGcjRYKmKQ
编辑:kin122
更多资讯:http://news.searchkit.cn
【搜索客社区日报】第2046期 (2025-06-03)
社区日报 • God_lockin 发表了文章 • 0 个评论 • 2513 次浏览 • 2025-06-03 21:39
https://dineshkumarnaik.medium ... 8e127
2. 被证书过期搞的欲仙欲死的是谁我不说(需要梯子)
https://faun.pub/dont-let-ssl- ... b5fc0
3. ES的自动扩容小助手好用不(需要梯子)
https://medium.com/%40holidu/e ... 2b69c
编辑:斯蒂文
更多资讯:http://news.searchkit.cn
【搜索客社区日报】第2045期 (2025-05-29)
社区日报 • Se7en 发表了文章 • 0 个评论 • 3433 次浏览 • 2025-05-29 20:19
https://mp.weixin.qq.com/s/1__uUX7xMoQ6q7HFXrP2Bw
2.vLLM 核心技术 PagedAttention 原理详解
https://mp.weixin.qq.com/s/94-kEyHui0BLO5S-80eAiw
3.【万字长文】大模型开源开发全景与趋势解读
https://mp.weixin.qq.com/s/2xwyGPZppdYmU_cDX3Xhyg
4.技术干货|深度剖析将 Kafka 构建在 S3 上的技术挑战与最佳实践
https://mp.weixin.qq.com/s/_WggDfOoXhiIgFBWWROXnQ
编辑:Se7en
更多资讯:http://news.searchkit.cn