要不要也来分享分享一下啊

关于hot_thread的报错问题

Elasticsearch | 作者 wanghaiyu1997 | 发布于2021年07月13日 | 阅读数:1084

今天凌晨 生产上CPU占用率超高 有异常报警 用GET /nodes/hot_thread 发现有两个线程有问题
分别是 transprot_server_work 以及 timer 遇到这类问题该怎么排查 麻烦知道的大佬传授下经验
已邀请:

tongchuan1992 - 学无止境、学以致用

赞同来自: wanghaiyu1997

您好,凌晨CPU占用高可以先去确定是不是Es进程占用的,然后您说的两个进程有问题,第一个transprot_server_work 这是transport模块,负责集群es进程之间通信的,应该不是问题进程。第二个timer我没有遇到过可以详细给个截图吗

wanghaiyu1997 - 95后

赞同来自:

FB350FBB-F5DC-4AC4-93DB-CF907B68A14E.jpeg

感谢

niukaiyuan

赞同来自:

1.首先查看一下,线程池情况,API应该是这个,GET _node/threadpool?v,看一下,有没有写线程堵塞的情况
2.其次查看热点线程,重点关注一下,有没有Lucene merge之类的字样或者write字样,有的话,看一下相关的耗时占比
3.确定一下,凌晨时段最近有没有跑批任务,导致大数据请求进来,如果存在大数据请求进来,可能会造成写入堵塞的情况
4.查询写入的索引配置,重点观察一下
"index.refresh_interval"
"index.translog.flush_threshold_size"
"index.translog.sync_interval"
这几个参数配置,看一下值是否过小
5.如果以上的情况基本上存在,那么很大概率是写入堵塞造成CPU负载过高了

要回复问题请先登录注册