ES物理服务器大量写入僵死

Elasticsearch | 作者 my_libl | 发布于2020年07月15日 | 阅读数：2160

版本ES7.3.1
作用日志采集
架构 filebeat采集 zookeeper kafka logstash ES kibana
5台服务器做集群，每台服务器启动2个实例，JVM 31GB
分布
"node data" : 10,
"node ingest" : 10,
"node master" : 5,
服务器系统centos7.4
内存754
CPU 12核心 48逻辑CPU
磁盘存储
1、8快960GB 做的raid5 磁盘名称/data
2、NVMe卡：1块1.6TB /data1
每台服务器的第一个实例数据存到test 第二个实例寸到test2

index分片
10个主分片 1个副本分片

参数调整："refresh_interval": "60s"

问题：5台服务器中3台服务器突然僵死无法访问，ssh无响应，登录后台查看只有一台服务器有部分日志命令行无法操作，另外2台无响应但是为恢复业务重启服务器处理，重启服务器后集群状态正常，分片黄色过了一段时间后自动恢复并显示绿色，查看服务器和es实例的CPU 内存都不高，CPU等待IO有升高，服务器的IO突增后服务器无响应。

es报错日志