其他数据源包括关系数据库mysql,sqlserver等;非关系数据库redis等;文档、网页、视频等;关系数据库中的每条记录映射成es中的一个文档,这样因为数据源的多样性,无法确定文档的语言。
当前使用的解决方案是:使用标准的分词器,不考虑数据来源的语言。这样的一个问题就是中文被分成单个字,没有词的概念。不知这样做怎么样?有没有更好的解决方案?
当前使用的解决方案是:使用标准的分词器,不考虑数据来源的语言。这样的一个问题就是中文被分成单个字,没有词的概念。不知这样做怎么样?有没有更好的解决方案?
2 个回复
medcl - 今晚打老虎。
赞同来自:
phantom - you know, for search
赞同来自: