是时候用 ES 拯救发际线啦

ES 现在有接近5亿条数据,再使用python的helpers.bulk导入数据变得非常慢?

Elasticsearch | 作者 wkl7123 | 发布于2016年05月17日 | 阅读数:9269

已经把refresh时间设为了-1,每个bulk语句中即使只有10条数据也异常缓慢(timeout=10, 还会报timeout exception),其他设置基本上是默认设置。es版本2.3, 服务器 windows server 2008, 4G内存,cpu忘了。在刚开始导入的时候(es库里条目为0),大概是每秒2000条。请问es在数据库数据变大的时候插入性能会严重变差吗?是不是只有一个数据节点的缘故?有什么解决办法?
已邀请:

qq123 - 90后IT精英

赞同来自: zhouyou1000

写数据的时候不要用副本 将副本设置为0  

viewsite

赞同来自:

集群里有几个index?几个分片?

puyunjiafly

赞同来自:

索引怎么划分的?
_id是自定义的吗?
如果_id是默认的  这种机器最好用索引-时间的索引名称存储比较快。
但是搜索也会是个问题。。

rochy - rochy_he

赞同来自:

如果单个索引数据量过大,可以尝试调整主分片数目;
其次也可以建立多个索引,多个索引使用一个别名(或者特定的规则,例如db_user_001);
虽然不能使用别名进行索引数据,但是可以进行搜索、查询;
只需要在索引数据时,进行一些额外额判断即可

要回复问题请先登录注册