你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

文本相似度查询词频向量余弦计算方式，如何在es快速实现？

Elasticsearch | 作者 NingerJohn | 发布于2021年02月01日 | 阅读数：4106

比如用户录入的文本A（一大堆中文），es里面有很多文本（假设50万条记录）
最终想要相似度95%以上的所有文本记录，这个在es里面怎么实现？
关于文本的计算方式，采用词频余弦向量计算方式即可。[参考链接](cnblogs.com/liangjf/p/8283519.html)

2 个回复

向量搜索里有余弦相似度计算度方法

看起来是想做文本去重或者聚类？
1. 可以考虑直接standard按单子分词，配合similarity设置成ifidf
2. 召回的时候按不同相似比例的文档计算大致对应的ES打分
3. 后续使用的时候用用户输入文本做query从es里做召回，计算它的最高得分

这样能否满足你的需求？

要回复问题请先登录或注册