elasticsearch去除相似度较高的数据

Elasticsearch | 作者 qqq1234567 | 发布于2018年11月06日 | 阅读数：5874

分享到：QQ空间新浪微博微信 QQ好友印象笔记有道云笔记

假设有这样一组数据
title:1-6月份房地产市场运行情况
title:1-7月份房地产市场运行情况
title:1-10月份房地产市场运行情况
标题非常类似的数据,只显示一条

7 个回复

rochy - rochy_he

去除相似度高的应该在数据录入的时候进行处理
你现在的需求就造成无法定义相似度高，
此外相似度高的显示那一条数据呢？
你这个最好是使用 ES 查询，然后自己程序里面进行判断
相似度你可以使用编辑距离、余弦距离等方式来进行判定。

novia - 1&0

如果就想通过es实现，那就的自己开发相关插件了

laoyang360 - 《一本书讲透Elasticsearch》作者，Elastic认证工程师 [死磕Elasitcsearch]知识星球地址：http://t.cn/RmwM3N9；微信公众号：铭毅天下; 博客：https://elastic.blog.csdn.net

文章接入的时候打上相似文章的计算，打上标记即可。推荐：https://mp.weixin.qq.com/s%3F_ ... 67b45

zqc0512 - andy zhou

写入的时候处理 spark 这些都可以。

qqq1234567

但是simHash处理短文本的效果好像不是很好,像标题这样的短文本应该怎么处理呢

core_wzw - 某AILab搜索技术负责人

冗余文档去重，在入索引库前做，不然在召回后的去重不仅难以控制召回集里冗余文档的数量，重排前的去冗余都会非常耗时。
业务层面必然会碰到的问题，我的经验是文档入库前spark算文档的simhash，建立一个冗余库，业务文档索引库只存在一篇“原创”文档，通过UI端提供相似文档按钮召回冗余库里的相似文档即可。

skymilong66

入库前打上标记吧

要回复问题请先登录或注册

elasticsearch去除相似度较高的数据

7 个回复

发起人

活动推荐

相关问题

问题状态

elasticsearch去除相似度较高的数据

与内容相关的链接

7 个回复

发起人

活动推荐

相关问题

问题状态