1.环境
elasticsearch: 2.1.1
使用elasticsearch-mapper-attachments插件进行文件索引
文件类型:pdf
文件大小:35m
2.性能统计
索引核心操作耗时:112924ms = 112.9s
索引核心操作是:client.prepareIndex(index, ATTACHMENT_TYPE, id.toString()) .setSource(source).execute().actionGet();
简单地说,就是用这种方法,索引35m的pdf文件,竟然使用了112.9s,在半实时环境下,不可接受。
问题:
1.索引文件性能是不是就是这个量级,此种现象是正常的?如果正常,就应该从导入策略上去优化
2.如果不正常,有没有更好地办法?
elasticsearch: 2.1.1
使用elasticsearch-mapper-attachments插件进行文件索引
文件类型:pdf
文件大小:35m
2.性能统计
索引核心操作耗时:112924ms = 112.9s
索引核心操作是:client.prepareIndex(index, ATTACHMENT_TYPE, id.toString()) .setSource(source).execute().actionGet();
简单地说,就是用这种方法,索引35m的pdf文件,竟然使用了112.9s,在半实时环境下,不可接受。
问题:
1.索引文件性能是不是就是这个量级,此种现象是正常的?如果正常,就应该从导入策略上去优化
2.如果不正常,有没有更好地办法?
6 个回复
kennywu76 - Wood
赞同来自: ouyangDD 、cxy
测试用的ES版本是2.2.2 ,插件Mapper Attachments Plugin。
测试索引的mapping设置如下:
测试pdf大小:
测试的python代码:
耗时如下:
整个耗时包括文件读取,base64编码,以及调用ES index api做索引。
对content字段进行全文检索,耗时61ms:
可以正确的match:
rmqc0909
赞同来自:
rmqc0909
赞同来自:
happyhui
赞同来自:
laoyang360 - 《一本书讲透Elasticsearch》作者,Elastic认证工程师 [死磕Elasitcsearch]知识星球地址:http://t.cn/RmwM3N9;微信公众号:铭毅天下; 博客:https://elastic.blog.csdn.net
赞同来自:
luoqingsong - 80后IT男
赞同来自: