在分词的时候,标点符号没有计入position的偏移
因此我在用“云襄”去match_phrase召回的时候,也召回了“云,襄”,并且它们的评分是一样的,这种情况是否有优化方案呢
因此我在用“云襄”去match_phrase召回的时候,也召回了“云,襄”,并且它们的评分是一样的,这种情况是否有优化方案呢
GET _analyze
{
"analyzer": "ik_smart",
"text": "云,襄"
}
{
"tokens": [
{
"token": "云",
"start_offset": 0,
"end_offset": 1,
"type": "CN_CHAR",
"position": 0
},
{
"token": "襄",
"start_offset": 2,
"end_offset": 3,
"type": "CN_CHAR",
"position": 1
}
]
}
0 个回复