三人行必有我师

重新索引时的数据问题,急

Elasticsearch | 作者 lz8086 | 发布于2017年06月30日 | 阅读数:2524

现在由于原来某字段的分词不满足现搜索需求,需要由ik变为ngram,并且还得对原来的这个字段加上某个汉字的处理,比如加个‘鲁’字,原来是‘ABCD12’,现在该列得为‘鲁ABCD12’。
官网链接:
https://www.elastic.co/guide/e ... .html
已邀请:

kennywu76 - Wood

赞同来自: lz8086

定义好新索引的mapping,改为使用ngram,然后按照链接里的指导重新索引就好了呀? 加汉子的规则使用script来完成。  

kennywu76 - Wood

赞同来自:

min_gram设置为1的时候,搜‘鲁AC12’可以match'鲁ABCD12’,但这时候谈论的不是“搜准率”。相反,这个匹配实际上是模糊的,不够精准的,获得的是更好的召回率。 提升搜准率的是max_gram,这个值越大,匹配的准确度就越高。

min_gram过小,max_gram过大,分词生成的token会非常多,搜索性能会下降。 所以到底设置多少合适,需要根据实际项目需求,经过测试后,在搜索质量和性能之间求一个平衡。

要回复问题请先登录注册