使用 man ascii 来查看 ASCII 表。

非对称检索:把每月 1.5 万美元的嵌入成本降到零

AI 搜索 | 作者 ai_insider | 发布于8 小时前 | | 阅读数:176

向量搜索的成本结构正在被重新定义。

Vespa 和 Voyage AI 联合推出了一种新的检索范式:非对称检索(Asymmetric Retrieval)。它的核心洞察简单却深刻——文档嵌入和查询嵌入的成本结构完全不同,为什么要用同样的模型处理两者?

成本结构的残酷现实

想象一个日活百万的搜索服务:

  • 10,000 QPS(每秒查询数)
  • 每个查询约 30 个 token
  • 每月需要嵌入 7770 亿个 token
  • 按 $0.02/百万 token 计算:

仅查询嵌入成本:$15,500/月

这还只是嵌入 API 的费用,不包括存储、计算、网络等其他开销。

而文档嵌入呢?假设你有 1000 万篇文档,每篇平均 500 token:

  • 一次性嵌入成本:$100
  • 之后不再需要嵌入

文档嵌入是一次性投资,查询嵌入是持续性开销。

非对称检索的核心洞察

传统方法的对称性假设:

文档 → 大模型嵌入 → 向量空间 ← 大模型嵌入 ← 查询

非对称检索的解耦思路:

文档 → 大模型嵌入(voyage-4-large)→ 向量空间 ← 小模型嵌入(voyage-4-nano)← 查询

关键洞察:

  1. 文档嵌入是离线的、一次性的、对延迟不敏感的——可以用最贵、最准的模型
  2. 查询嵌入是在线的、持续的、对延迟敏感的——需要快速、低成本

Voyage AI 的 voyage-4 系列模型让这种非对称成为可能:四个模型(large/standard/lite/nano)共享同一个向量空间,可以任意组合使用。

成本对比:从 $15,500 到 $0

方案 查询嵌入成本/月 延迟 质量
传统对称(大模型) $15,500 高(API 调用) 最佳
非对称(大模型文档 + nano 查询) $0 低(本地 CPU) 接近最佳

节省的成本不是通过降低质量实现的,而是通过把计算从云端 API 转移到本地 CPU

voyage-4-nano 是一个轻量级模型,可以在 Vespa 容器内本地运行,单次推理仅需几毫秒。

质量如何保证?

非对称检索最大的质疑是:小模型嵌入的查询,能准确匹配大模型嵌入的文档吗?

Voyage AI 的实验数据给出了答案:

在 MTEB 基准测试(29 个检索数据集,NDCG@10)上:

对比 提升
vs. Gemini Embedding 001 +3.87%
vs. Cohere Embed v4 +8.20%
vs. OpenAI v3 Large +14.05%

更重要的是,非对称检索(大模型文档 + nano 查询)在医疗、代码、网页、金融、法律等多个领域都保持了接近全大模型的检索质量。

这得益于 voyage-4 系列的共享向量空间设计:不同大小的模型学习到了兼容的表示,小模型的查询向量可以有效匹配大模型的文档向量。

工程实现的关键

Vespa 对非对称检索的原生支持,解决了几个生产环境的关键问题:

1. 独立扩缩容

Vespa 将无状态容器(运行嵌入)与内容集群(存储数据)分离:

  • 需要更高 QPS?增加容器节点
  • 需要更多文档?增加内容节点
  • 两者互不干扰

2. 查询路径无外部依赖

传统方案的问题:

用户查询 → 你的服务 → 嵌入 API → 返回向量 → 向量检索 → 返回结果

任何一环的网络延迟或故障,都会影响用户体验。

非对称检索的方案:

用户查询 → 你的服务(本地嵌入)→ 向量检索 → 返回结果

嵌入在容器内完成,没有外部 API 调用,延迟可控,可用性更高。

3. 灵活的升级路径

共享向量空间的另一个好处:可以独立升级查询模型

  • 初期:使用 voyage-4-nano 控制成本
  • 增长期:升级到 voyage-4-lite 提升质量
  • 成熟期:针对特定租户使用 voyage-4-large

无需重新嵌入任何文档,只需更换查询端的模型。

对搜索架构的启示

非对称检索的流行,标志着向量搜索正在从"技术验证"走向"成本优化"阶段。

1. 成本意识成为架构设计的一等公民

早期的向量搜索只关注准确率和延迟,现在成本成为同等重要的指标。非对称检索是在质量、延迟、成本三者之间的优雅平衡。

2. 模型即基础设施

voyage-4-nano 运行在 Vespa 容器内,意味着嵌入模型成为基础设施的一部分,而不是外部依赖。这对运维和成本控制都是重大利好。

3. 多租户场景的天然适配

在多租户系统中,可以为不同租户配置不同的文档嵌入策略:

  • 付费用户:voyage-4-large 文档嵌入
  • 免费用户:voyage-4-lite 文档嵌入

所有租户共享相同的查询路径,但获得不同的检索质量。

局限与适用场景

非对称检索并非万能:

  • 需要共享向量空间:只有同一模型家族的模型才能非对称组合
  • 查询质量上限:小模型的查询表示能力有上限,极端复杂查询可能不如大模型
  • 自托管成本:虽然省了 API 费用,但需要在容器内运行模型,增加了计算资源需求

最适合的场景:

  • 高 QPS、查询成本敏感的应用
  • 对延迟要求严格的实时搜索
  • 希望减少外部依赖、提高可用性的系统

在 AI 搜索的成本优化之路上,非对称检索提供了一个新思路:不是降低质量来省钱,而是把计算移到更合适的地方。

当文档嵌入用最强模型、查询嵌入用本地轻量模型成为标配,向量搜索的经济学将被彻底改写。


来源: Vespa Blog (March 10, 2026)
相关: Voyage AI voyage-4 发布
技术要点: 非对称检索、成本优化、向量搜索、模型蒸馏


[尊重社区原创,转载请保留或注明出处]
本文地址:http://searchkit.cn/article/15726


0 个评论

要回复文章请先登录注册