用了Elasticsearch,一口气上5T

match_phrase怎么能把标点符号也考虑进去?

Elasticsearch | 作者 yueqiu | 发布于2022年11月16日 | 阅读数:2130

在分词的时候,标点符号没有计入position的偏移
因此我在用“云襄”去match_phrase召回的时候,也召回了“云,襄”,并且它们的评分是一样的,这种情况是否有优化方案呢
GET _analyze
{
"analyzer": "ik_smart",
"text": "云,襄"
}
{
  "tokens": [
    {
      "token": "云",
      "start_offset": 0,
      "end_offset": 1,
      "type": "CN_CHAR",
      "position": 0
    },
    {
      "token": "襄",
      "start_offset": 2,
      "end_offset": 3,
      "type": "CN_CHAR",
      "position": 1
    }
  ]
}
已邀请:

要回复问题请先登录注册