要不要再翻翻文档呢?

ES物理服务器 大量写入 僵死

Elasticsearch | 作者 my_libl | 发布于2020年07月15日 | 阅读数:1652

版本ES7.3.1   
作用日志采集
架构  filebeat采集 zookeeper kafka   logstash ES  kibana   
5台服务器做集群,每台服务器启动2个实例,JVM 31GB 
分布 
       "node data" : 10,
      "node ingest" : 10,
      "node master" : 5,
服务器系统centos7.4
 内存754 
CPU 12核心  48逻辑CPU 
磁盘存储
1、8快960GB 做的raid5 磁盘名称/data
2、NVMe卡:1块1.6TB /data1
每台服务器的第一个实例数据存到test 第二个实例寸到test2
 
index分片
10个主分片 1个副本分片
 
参数调整:"refresh_interval": "60s"
 
问题:5台服务器中3台服务器突然僵死无法访问,ssh无响应,登录后台查看只有一台服务器有部分日志命令行无法操作,另外2台无响应但是为恢复业务重启服务器处理,重启服务器后集群状态正常,分片黄色过了一段时间后自动恢复并显示绿色,查看服务器和es实例的CPU 内存都不高,CPU等待IO有升高,服务器的IO突增后服务器无响应。
 
es报错日志

ES错误日志.jpg

 
 
服务器日志

服务器日志.jpg

 
服务器内存

服务器内存.jpg

 
服务器CPU

服务器CPU.jpg

 
服务器IO

服务器IO.jpg

 
服务器网络

服务器网络.jpg

 
ES实例

es实例内存.jpg

 

es实例GC.jpg

 
  
 
  
 
 
 
已邀请:

byx313 - BLOG:https://www.jianshu.com/u/43fd06f9589c

赞同来自:

看着像是某块盘坏了啊

Charele - Cisco4321

赞同来自:

硬盘可能有问题,也可能是xfs文件系统的问题。总之是个隐患。
匿名用户

匿名用户

赞同来自:

服务器系统centos7.4
 内存754 
CPU 12核心  48逻辑CPU 
磁盘存储
1、8快960GB 做的raid5 磁盘名称/data
2、NVMe卡:1块1.6TB /data1
 
真实浪费资源啊。。。。

要回复问题请先登录注册