你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
输入关键字进行搜索
搜索:
发现
分享
文章
活动
登录
橡皮、老虎皮、狮子皮哪一个最不好?
对于多语言处理,当前有没有什么好的方案推荐?
Elasticsearch
| 作者
wssmao
| 发布于2019年06月14日 | 阅读数:
1610
分享到:
QQ空间
新浪微博
微信
QQ好友
印象笔记
有道云笔记
构建索引时,所处理的文本,涉及多种语言,如 英文、中文、德文、法文、韩文、日文、西班牙文、阿拉伯文、蒙古文等。
社区里有没有遇到过类似场景,是如何实现的?
对于多语言处理,当前有没有什么好的方案推荐?
没有找到相关结果
已邀请:
与内容相关的链接
提交
3 个回复
God_lockin
赞同来自:
存的时候:
同一个字段包含了乱七八糟各种文字吗?还是说可以明确的知道某一段数据是那种语言
取的时候:
同一个条件做多语言匹配吗?需要同一个词的不同语言的说法吗?
God_lockin
赞同来自:
如果可以确定数据的语言(存在对应的字段,比如cn:“今天天气不错”,en:“Good day today”),query内容的语言,直接可以通过指定对应的query来解决
"query":{"match":{"cn":"天气不错"}}
但是需要注意的是每个字段的mapping里要加上对应语言的分词器
如果不能确定搜索条件的语言的话,可以考虑multiplematch之类的全文匹配,也需要对每个语言的字段加设自己对应语言的分词器
xufenxu
赞同来自:
简单点,ngram分词吧,多语言常用做法
要回复问题请先
登录
或
注册
发起人
wssmao
活动推荐
Jun
17
搜索客 Meetup 讲师招募(长期有效)
线上
·
6-17 周一
·
进行中
May
15
Workshop | 搜索服务统一治理(跨引擎多个集群监控管理、流量管控、服务编排)
北京
·
5-15 周四
·
报名中
May
16
2025XCOPS智能运维管理人年会
广州
·
5-16 周五
·
报名中
May
29
Workshop | Coco AI - 开源智能搜索与知识库管理
北京
·
5-29 周四
·
报名中
Jun
28
第26届 GOPS 全球运维大会暨研运数智化技术峰会 · 北京站
北京
·
6-28 周六
·
报名中
相关问题
跨集群数据同步方案讨论
单机环境Unassigned Shards该怎么处理
Shard大小官方推荐值为20-40GB, 具体原理呢?
如%#¥这种特殊符号需要搜索出来应该如何处理
ES节点都在,也是green状态,出现大量的pending_tasks,应该如何进行处理,有没有处理路程
es被攻击了,怎么处理?
来自不同输入源的日志(有不同的index名称),出现在一个index里,请教怎么处理
elasticsearch 关于排序部分有没有中文文档或者博客,能否推荐点资料给个我
各位做过 将 mysql表导入到 kafka 中吗, 然后从kafka 中导入到es 中, 有什么方案吗?
日志长时间保存方案
ES超大数据集群方案请教
问题状态
最新活动:
2019-06-19 17:17
浏览:
1610
关注:
4
人
3 个回复
God_lockin
赞同来自:
同一个字段包含了乱七八糟各种文字吗?还是说可以明确的知道某一段数据是那种语言
取的时候:
同一个条件做多语言匹配吗?需要同一个词的不同语言的说法吗?
God_lockin
赞同来自:
"query":{"match":{"cn":"天气不错"}}
但是需要注意的是每个字段的mapping里要加上对应语言的分词器
如果不能确定搜索条件的语言的话,可以考虑multiplematch之类的全文匹配,也需要对每个语言的字段加设自己对应语言的分词器
xufenxu
赞同来自: