请问 如何将字符串 "bags and shoes" 分析成 "bag and shoe"
例如:
1. 有字符串"bags and shoes", 应用Standard Tokenizer,得到分词结果 "bags" "and" "shoes" (3个token)
2. "bags" "and" "shoes" 应用 Porter Stem Token Filter,
得到分词结果:"bag" "and" "shoe" (3个token)
3. 有没有合适的token filter 类型,能够将 "bag" "and" "shoe" 合并成单个token: "bag and shoe" ?
或者其他的方法,将"bags and shoes" 分析为 "bag and shoe" (keyword类型,或者单个token的text类型)
例如:
1. 有字符串"bags and shoes", 应用Standard Tokenizer,得到分词结果 "bags" "and" "shoes" (3个token)
2. "bags" "and" "shoes" 应用 Porter Stem Token Filter,
得到分词结果:"bag" "and" "shoe" (3个token)
3. 有没有合适的token filter 类型,能够将 "bag" "and" "shoe" 合并成单个token: "bag and shoe" ?
或者其他的方法,将"bags and shoes" 分析为 "bag and shoe" (keyword类型,或者单个token的text类型)
1 个回复
medcl - 今晚打老虎。
赞同来自: code4j 、zx3271234
如果只是上面的命题,也有办法,假设固定是 3 个 token,用 shingle filter:
结果