【搜索客社区日报】第1780期 (2024-01-25)
社区日报 • Se7en 发表了文章 • 0 个评论 • 4044 次浏览 • 2024-01-25 13:28
https://mp.weixin.qq.com/s/yAhhRzYLcg-oGOSHILyfmw
2.Streamdal 使用智能 PII 规则增强 Logstash(需要梯子)
https://medium.com/streamdal/s ... 42017
3.为什么先进的 RAG 方法对于人工智能的未来至关重要?(需要梯子)
https://towardsdatascience.com ... 5a208
编辑:Se7en
更多资讯:http://news.searchkit.cn
Easysearch:语义搜索、知识图和向量数据库概述
Easysearch • liaosy 发表了文章 • 0 个评论 • 4915 次浏览 • 2024-01-24 20:56
什么是语义搜索?
语义搜索是一种使用自然语言处理算法来理解单词和短语的含义和上下文以提供更准确的搜索结果的搜索技术。旨在更好地理解用户的意图和查询内容,而不仅仅是根据关键词匹配,还通过分析查询的语义和上下文来提供更准确和相关的搜索结果。
传统的关键词搜索主要依赖于对关键词的匹配,而忽略了查询的含义和语境。但语义搜索的优点在于它可以更好地满足用户的意图,尤其是对于复杂的查询和问题。它能够理解查询的上下文,处理模糊或不完整的查询,并提供更相关和有用的搜索结果。例如,当用户搜索"最近的餐厅"时,语义搜索可以根据用户的位置信息和上下文,提供附近的餐厅列表,而不仅仅是简单地匹配关键词"最近"和"餐厅"。
![](https://www.infinilabs.com/img ... p1.jpg)
语义搜索的历史
语义搜索的概念可以追溯到计算机科学的早期,在 20 世纪 50 年代和 1960 年代就有人尝试开发自然语言处理系统。然而,直到 20 世纪 90 年代和 2000 年代,语义搜索领域才取得了重大进展,这在一定程度上要归功于机器学习和人工智能的进步。
语义搜索最早的例子之一是 Douglas Lenat 在 1984 年创建的 Cyc 项目。该项目旨在建立一个全面的常识知识本体或知识库,可用于理解自然语言查询。虽然 Cyc 项目面临诸多挑战,最终没有实现其目标,但它为未来语义搜索的研究奠定了基础。
20 世纪 90 年代末,Ask Jeeves(现称为 Ask.com)等搜索引擎开始尝试自然语言查询和语义搜索技术。这些早期的努力受到当时技术的限制,但它们展示了更复杂的搜索算法的潜力。
2000 年代初 Web 本体语言 (OWL) 的发展提供了一种以机器可读格式表示知识和关系的标准化方法,使得开发语义搜索算法变得更加容易。2008 年被微软收购的 Powerset 和 2007 年推出的 Hakia 等公司开始使用语义搜索技术来提供更相关的搜索结果。
如今,许多搜索引擎和公司正在使用语义搜索来提高搜索结果的准确性和相关性。其中包括于 2012 年推出知识图谱的谷歌,以及使用语义搜索为其 Alexa 虚拟助手提供支持的亚马逊。随着人工智能领域的不断发展,语义搜索可能会变得更加复杂且适用于广泛的应用。
语义搜索的最新改进
语义搜索的最新改进有助于进一步推动该领域的发展。一些最值得注意的包括:
基于 Transformer 的模型:基于 Transformer 的模型,例如 BERT(来自 Transformers 的双向编码器表示),彻底改变了自然语言处理和语义搜索。这些模型能够更好地理解单词和短语的上下文,从而更容易提供更相关的搜索结果。
多模态搜索:多模态搜索是指跨文本、图像、视频等多种模式搜索信息的能力。机器学习的最新进展使得开发更准确、更复杂的多模态搜索算法成为可能。
对话式搜索:对话式搜索涉及使用自然语言处理和机器学习来为用户查询提供更准确、更人性化的响应。这项技术已经被用于虚拟助手,例如亚马逊的 Alexa 和苹果的 Siri。
个性化:个性化是指根据用户的偏好和之前的搜索历史来定制搜索结果的能力。随着在线可用数据量的不断增长,这一点变得越来越重要。
特定领域搜索:特定领域搜索涉及使用语义搜索技术在特定领域或行业(例如医疗保健或金融)内进行搜索。这有助于为这些行业的用户提供更准确、更相关的搜索结果。
总体而言,语义搜索的最新进展使得在线查找信息变得更加容易,并为未来更复杂的搜索算法铺平了道路。
语义搜索和知识图谱有什么关系?
语义搜索和知识图(knowledge graph)密切相关,因为两者都涉及使用语义技术来改进搜索结果。
知识图是一种用于组织和表示知识的图形结构,通过节点和边的连接展示实体和关系之间的语义关联性。例如,知识图可能包含有关特定公司的信息,包括其位置、产品和员工以及这些实体之间的关系。
另一方面,语义搜索是一种使用自然语言处理和机器学习来更好地理解搜索查询中单词和短语的含义的搜索技术。语义搜索算法使用知识图和其他语义技术来分析实体和概念之间的关系,并基于此分析提供更相关的搜索结果。
换句话说,知识图谱为语义搜索提供了丰富的知识背景,帮助理解查询意图和提供准确的搜索结果。同时,语义搜索可以帮助构建和扩展知识图谱,提高搜索的准确性和语义理解能力。
例如,谷歌的知识图使用庞大的结构化数据数据库来支持其搜索结果,并提供有关搜索结果中出现的实体(例如人物、地点和事物)的附加信息。这使得用户更容易找到他们正在寻找的信息并探索相关的概念和实体。
向量数据库、知识图谱和语义搜索
向量数据库是另一种可以与语义搜索和知识图相结合使用以改进搜索结果的技术。它主要用于处理和分析具有向量特征的数据,如图像、音频、文本、时间序列等。
传统的关系型数据库主要用于存储结构化的数据,而向量数据库则专注于存储和处理高维向量。它的设计目标是能够高效地进行向量相似性搜索和聚类等操作,以支持复杂的数据分析和机器学习任务。向量数据库使用机器学习算法将数据表示为向量,向量是数据的数学表示,可用于各种计算任务,例如,向量可用于表示人、地点和事物等实体以及它们之间的关系。通过比较这些向量,搜索算法可以识别数据本身可能无法立即显现的关系和模式。
在语义搜索和知识图的背景下,向量数据库可以通过更好地理解实体和概念之间的关系来提高搜索结果的准确性。
例如,当用户搜索“ London ”时,语义搜索算法可以使用知识图和向量数据库来了解用户可能指的是英国伦敦市,而不是其他同名实体。
通过使用向量数据库来表示和比较实体和概念,搜索算法可以提供更相关和更准确的搜索结果。
总体而言,向量数据库、语义搜索和知识图谱都是共同提高搜索算法的准确性和效率的技术。通过利用这些技术,搜索引擎和其他应用程序可以更好地理解实体和概念之间的关系,从而更轻松地找到用户正在寻找的信息。
关于 Easysearch
![Easysearch](https://infinilabs.com/img/blo ... er.png)
INFINI Easysearch 是一个分布式的近实时搜索与分析引擎,核心引擎基于开源的 Apache Lucene。Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本,并继续完善和支持更多的企业级功能。与 Elasticsearch 相比,Easysearch 更关注在搜索业务场景的优化和继续保持其产品的简洁与易用性。
官网文档:<https://infinilabs.com/docs/latest/easysearch>
参考资料
- [给 ES 插上向量检索的翅膀](https://infinilabs.com/blog/20 ... ector/)
搜索客社区日报 第1780期 (2024-01-24)
社区日报 • kin122 发表了文章 • 0 个评论 • 3905 次浏览 • 2024-01-24 16:01
https://zhuanlan.zhihu.com/p/678234806
2.ClickHouse、Doris及ElasticSearch性能压测
https://zhuanlan.zhihu.com/p/678885098
3.日志解析神器——Logstash中的Grok过滤器使用详解
https://mp.weixin.qq.com/s/-wHeZ6NvXr8syccvKqz4OQ
编辑:kin122
更多资讯:http://news.searchkit.cn
【搜索客社区日报】 第1777期 (2024-01-22)
社区日报 • yuebancanghai 发表了文章 • 0 个评论 • 4688 次浏览 • 2024-01-22 13:33
https://blog.csdn.net/laoyang3 ... 12946
2、Elasticsearch 对数据进行预处理
https://blog.csdn.net/cr7258/a ... 59631
3、阿里巴巴长文档推荐系统在企业数字化中的应用
https://zhuanlan.zhihu.com/p/677525998
编辑:yuebancanghai
更多资讯:http://news.searchkit.cn
【搜索客社区日报】第1776期 (2024-01-19)
社区日报 • laoyang360 发表了文章 • 0 个评论 • 2837 次浏览 • 2024-01-19 13:37
https://medium.com/searchblox/ ... 313d6
2、使用routing.allocation.same_shard.host时Elasticsearch黄色健康状态处理方案探讨
https://toughcoding.net/elasti ... -host
3、关于重建索引 API 使用和故障排查的 3 个最佳实践
https://www.elastic.co/cn/blog ... x-api
编辑:铭毅天下
更多资讯:http://news.searchkit.cn
【搜索客社区日报】第1775期 (2024-01-18)
社区日报 • Se7en 发表了文章 • 0 个评论 • 2410 次浏览 • 2024-01-18 08:18
https://www.youtube.com/watch?v=c2ytcVh1kb8
2.将 LlamaIndex 与 Elasticsearch 结合使用以实现 RAG(需要梯子)
https://medium.com/%40zhaozhim ... daeef
3.Elastic Observability ES|QL Demo(需要梯子)
https://www.youtube.com/watch?v=vm0pBWI2l9c
4.Elasticsearch 写操作剖析
https://www.cnblogs.com/hapjin/p/9821073.html
编辑:Se7en
更多资讯:http://news.searchkit.cn
搜索客社区日报 第1774期 (2024-01-17)
社区日报 • kin122 发表了文章 • 0 个评论 • 2529 次浏览 • 2024-01-17 14:17
https://mp.weixin.qq.com/s/7Ccflrl_AJoExAVTIc5r0A
2.Langchain 与 Elasticsearch:创新数据检索的融合实战
https://mp.weixin.qq.com/s/km4qRRuG65aieArB2s27iA
3.Elasticsearch:是时候离开了! - 在 Elasticsearch 文档上使用 TTL
https://blog.csdn.net/UbuntuTo ... 52898
编辑:kin122
更多资讯:http://news.searchkit.cn
【搜索客社区日报】第1773期 (2024-01-16)
社区日报 • God_lockin 发表了文章 • 0 个评论 • 2540 次浏览 • 2024-01-16 16:43
https://github.com/practical-t ... rning
2. 一个可以突破ChatGPT一些限制使用的工程(需要梯子)
https://github.com/pandora-next/deploy
3. 阿里出的AI换脸工具,理论上妙鸭就是以它做核心的(需要梯子)
https://github.com/modelscope/facechain
编辑:斯蒂文
更多资讯:http://news.searchkit.cn
星球:https://t.zsxq.com/16RgqrvdZ
【INFINI 动手实战训练营-北京站】海量数据不再头疼,使用 Easysearch 来实现降本增效,硬件直接减半
Easysearch • liaosy 发表了文章 • 0 个评论 • 2673 次浏览 • 2024-01-16 00:44
您是否遇到过以下问题?
- 当前部分原始日志压缩归档存放到 HDFS,但不能直接灵活查询;
- 使用 Elasticsearch 存储日志,开销较大,硬件资源投入较高;
- 当前日志集群不断增长,存储接近 PB 量级,且还在不断接入新的数据;
- 希望降低日志保留成本,同时满足按需查询的需求,平衡性能和成本;
- 集群规模大,分片过多,管理存在挑战,希望降低维护成本等。
针对使用 Elasticsearch 来作为日志存储的以上痛点,INFINI Labs 推出的 Easysearch 提供了若干存储优化的解决方案:
- 优化措施一:集成高效压缩算法
Easysearch 采用业界最先进的 Zstd 压缩算法,高压缩率,低 CPU 消耗,针对 Doc Values、Store 字段进行高度无缝压缩,不影响正常的使用体验,可以降低 50% 的存储开销。 - 优化措施二:无缝去除 Source 字段
Easysearch 利用 DocValues 和 BKD Tree 来重建 Source,合并冗余存储,不影响日志的正常检索和查看,可以大幅降低存储需求,在一些指标场景,甚至可以降低 80% 的存储开销。 - 优化措施三:归档数据直接检索
您是否还在通过关闭索引来降低海量数据带来的集群压力,或者您是否已经将快照备份直接放到 S3 或者 HDFS 中了,现在通过 Easysearch 提供的归档数据的直接检索能力,可以进一步释放本地节点的磁盘空间,进而释放物理机器资源,并根据需要按需查询归档索引,而不需要恢复归档再查询,简单方便。
通过以上优化举措,我们可以用不到一半的机器即可承载原有的数据,并且结合 Easysearch 内置其它的内核优化,索引和查询性能也将大幅提升,同时集群更加稳定可靠。
快来与 INFINI Labs 的技术专家面对面,第一时间了解极限实验室的发布最新产品和功能特性,通过动手实战,快速掌握最前沿的搜索技术,并用于实际项目中。活动免费,欢迎报名参加。
活动时间:2024 年 1 月 18 日 13:30~17:30
活动地点:北京市海淀区 Wework 辉煌时代大厦 3 楼 3E 会议室
分享议题
- Easysearch 总体介绍及搭建实战
- Easysearch 存储优化原理与实践
- Elasticsearch -> Easysearch 在线迁移实操
- Console、Gateway、Loadgen 及 INFINI Labs 其他工具介绍与使用
参会提示
- 请务必自备电脑(Windows 系统环境请提前安装好 Linux 虚拟机)
- 请提前在 INFINI Labs 官网下载对应平台最新安装包(INFINI Easysearch、INFINI Gateway、INFINI Console)
- 下载地址:[https://www.infinilabs.com/download](https://www.infinilabs.com/download)
- 如有任何疑问可添加 INFINI Labs 小助手(微信号: INFINI-Labs)进行联系
![微信号: INFINI-Labs](https://www.infinilabs.com/img ... de.png)
活动报名
名额有限,对 Easysearch 搜索引擎感兴趣的朋友们速度报名(扫描海报中二维码或点击此处 [链接](https://www.huodongxing.com/event/6733634533000) 即可免费报名)。
请问基于es数组进行query_string查询时,如何在highlight中返回最佳匹配的数据?
Elasticsearch • Ombres 回复了问题 • 2 人关注 • 2 个回复 • 3036 次浏览 • 2024-01-17 13:37
对于update操作多,更新频繁的es索引,有没有什么可以性能调优的参数?
Elasticsearch • kin122 回复了问题 • 3 人关注 • 1 个回复 • 3267 次浏览 • 2024-01-17 14:20
【搜索客社区日报】 第1772期 (2024-01-15)
社区日报 • yuebancanghai 发表了文章 • 0 个评论 • 2011 次浏览 • 2024-01-15 09:59
https://mp.weixin.qq.com/s/SszyZ2Pjs6nuw0bpPyJRhA
2、Elasticsearch 读写原理、分片设计和性能优化
https://blog.csdn.net/huaxinzh ... 72294
3、Elasticsearch 跨集群数据迁移
https://blog.csdn.net/weixin_3 ... 68168
4、Elasticsearch 中实现自动完成功能 ngram
https://zhuanlan.zhihu.com/p/666108050
5、Langchain 与 Elasticsearch:创新数据检索的融合实战
https://mp.weixin.qq.com/s/km4qRRuG65aieArB2s27iA
编辑:yuebancanghai
更多资讯:http://news.searchkit.cn
ES数据备份还原的新集群首次查询慢
Elasticsearch • Charele 回复了问题 • 2 人关注 • 2 个回复 • 2669 次浏览 • 2024-03-25 18:45
【搜索客社区日报】第1771期 (2024-01-11)
社区日报 • Se7en 发表了文章 • 0 个评论 • 2806 次浏览 • 2024-01-11 09:12
https://juejin.cn/post/7286508785104732194
2.Elasticsearch 大型集群状态 – 如何发现、解决和预防
https://opster.com/guides/elas ... rtem/
3.ElasticON EMEA:基于eBPF开箱即用的实时全栈分析(需要梯子)
https://www.youtube.com/watch?v=RCDARiYJMDQ
编辑:Se7en
更多资讯:http://news.searchkit.cn