ik分词不准确问题

Elasticsearch | 作者 chenyuhui | 发布于2018年01月25日 | 阅读数：5396

比如对“进口红酒”细粒度分词会得到“进口”“口红”“红酒”，有没有办法可以把口红去掉，不能用ik_smart,因为索引用ik_smart会导致很多数据搜索不到

2 个回复

用ansj是可以实现的；
开源码：https://github.com/NLPchina/el ... -ansj

GET _analyze
{
"text": "进口红酒",
"analyzer": "index_ansj"
}
分词结果如下
{
"tokens": [
{
"token": "进口",
"start_offset": 0,
"end_offset": 2,
"type": "vn",
"position": 0
},
{
"token": "红酒",
"start_offset": 2,
"end_offset": 4,
"type": "n",
"position": 1
}
]
}

code4j - coder github: https://github.com/rpgmakervx

那就去词库删掉口红。
其实我们的做法是索引期用ik, 搜索用ik_smart，词库里面加上进口红酒这个term,这样我搜索的特定词就能够得到匹配。坏处就是进口洋酒这种词可能搜不出来了，不过这个业务上是能接受的，毕竟你搜的是红酒，除非你搜进口。

要回复问题请先登录或注册

ik分词不准确问题

2 个回复

发起人

活动推荐

相关问题

问题状态

ik分词不准确问题

与内容相关的链接

2 个回复

发起人

活动推荐

相关问题

问题状态