三人行必有我师

18台集群 频繁重启oom

Elasticsearch | 作者 lm324114 | 发布于2021年02月03日 | 阅读数:1396

目前 21台机器 ,3个主节点  18台数据节点, 32c 128g 3T SSD ,jvm 31G  18个分片 1个副本 保留7天数据,大概40T 700亿左右的数据,之前数据量较少,没出现频繁重启,现在数据量大了,频繁重启。

索引按照四小时切割,每天生成 6个索引 ,一个索引大数据量大概500g-1T之间
有3个业务,一天总共 生成18个索引
,保留七天大概 190个索引,5000多个分片
 
写入量较大,分片数需要调整吗?
已邀请:

lm324114

赞同来自: medcl

已经解决了,linux 系统的bug , 部分机器负载一高,系统就自动 kill掉
关闭 系统的oom killer 或者 把 es进程的 oom_score_adj 调整为 -1000 或者升级linux版本
 

lm324114

赞同来自:

ECB5E4CF-8549-4AAD-8482-5B27E2F50CC7.png

 

lm324114

赞同来自:

802006C0-8A8A-4BA2-8227-3F6A871970DC.png

 

lm324114

赞同来自:

39762FBB-493F-4B80-8E57-C67D1C2AD0D3.png

 

Ombres

赞同来自:

有用其他插件吗?

zmc - ES PAAS、JuiceFS

赞同来自:

oom之后重启,看一下是不是写入的时候buffer、队列设置太大了,导致写入的时候内存爆了,或者看一下慢日志,有没有大查询返回的结果太多导致处理这个请求的协调节点挂了

medcl - 今晚打老虎。

赞同来自:

把 es 监控的截图都放一下。

yj7778826 - 苦逼小运维

赞同来自:

你的peak used young是怎么怼到18G的,据我所知默认young的上限就8G左右

要回复问题请先登录注册