客套话不说了哈,请社区里各路高人,指点以下,有点奔溃了。
问题是这样:存储的是监控相关数据。
日均7.5亿条数据,副本数1. 算上副本,日均新增数据1.8T,只保存2天。查询入口只有UI点击,日pv在100以内(都是有问题才会去看监控)
关键是有18台物理机, 128G内存,单机双节点。每个节点Heap 31G。只能跑一天到2天。。
ES版本: 1.7.1
GC配置比较简单: G1, pause 200ms
运行一段时间后,大概一天后,陆续开始FGC,时间从15s ~ 5min不等,应该是mix gc失败后开始串行GC.
老年代基本吃完所有region,eden只有200M。
重启前,jmap了一下, [J 15G, 貌似是Long数组,但是不知道是ES的哪一块内存。
num #instances #bytes class name
----------------------------------------------
1: 3807192 15304408752 [J
2: 9767447 7021834000 [B
3: 25070955 1784529744 [C
4: 14629532 1170362560 org.elasticsearch.common.cache.LocalCache$Segment
5: 19221904 750032456 [Ljava.lang.Object;
6: 24674649 592191576 java.lang.String
7: 5196381 540423624 org.elasticsearch.action.index.IndexRequest
8: 14667374 469355968 java.util.concurrent.locks.ReentrantLock$NonfairSync
9: 3657374 468143872 org.elasticsearch.common.cache.LocalCache
10: 15372723 245963568 java.util.concurrent.atomic.AtomicInteger
11: 14629847 234077552 java.util.concurrent.atomic.AtomicReferenceArray
12: 7306511 233808352 org.elasticsearch.common.cache.LocalCache$StrongEntry
13: 6233374 199467968 java.util.HashMap$Node
14: 5315217 170086944 org.elasticsearch.common.joda.time.format.PeriodFormatter
15: 5315215 170086880 org.elasticsearch.common.unit.TimeValue
16: 3841132 153645280 java.util.LinkedHashMap$Entry
17: 4173918 133565376 org.elasticsearch.action.bulk.BulkItemResponse
18: 1058384 131618928 [Ljava.util.HashMap$Node;
19: 5196822 124723728 org.elasticsearch.common.bytes.BytesArray
20: 3657374 117036112 [Lorg.elasticsearch.common.cache.LocalCache$Segment;
21: 7307094 116913504 org.elasticsearch.common.cache.LocalCache$StrongValueReference
22: 2792201 111688040 java.util.TreeMap$Entry
23: 1866112 89573376 org.elasticsearch.action.index.IndexResponse
24: 3657344 87776256 org.apache.lucene.util.FixedBitSet
25: 3653252 87678048 org.elasticsearch.index.cache.fixedbitset.FixedBitSetFilterCache$Value
...
_cat看堆内存使用基本如下(保持在500m附近, siwm在1g附近,贴了一条)。
load hp hc uptime fm fcm qcm im pm sm siwm siwmx svmm sfbm
18.61 86 26.6gb 18.5h 124.6mb 24mb 0b 0b -1b 593.3mb 873.8mb 10.9gb 21.2mb 918.3mb
....
目前我们的数据里有大量的数字类型,但是没有自定义mapping,都转成long保存了,联想到doc value,jmap里的数组,列式存储等等,知识体系不健全,无法准确定位,下午准备改下mapping,明天再折腾一下~
会有人回么? 哎呀,第一次在这个社区发帖子,还是这么老的版本。 waiting....
问题是这样:存储的是监控相关数据。
日均7.5亿条数据,副本数1. 算上副本,日均新增数据1.8T,只保存2天。查询入口只有UI点击,日pv在100以内(都是有问题才会去看监控)
关键是有18台物理机, 128G内存,单机双节点。每个节点Heap 31G。只能跑一天到2天。。
ES版本: 1.7.1
GC配置比较简单: G1, pause 200ms
运行一段时间后,大概一天后,陆续开始FGC,时间从15s ~ 5min不等,应该是mix gc失败后开始串行GC.
老年代基本吃完所有region,eden只有200M。
重启前,jmap了一下, [J 15G, 貌似是Long数组,但是不知道是ES的哪一块内存。
num #instances #bytes class name
----------------------------------------------
1: 3807192 15304408752 [J
2: 9767447 7021834000 [B
3: 25070955 1784529744 [C
4: 14629532 1170362560 org.elasticsearch.common.cache.LocalCache$Segment
5: 19221904 750032456 [Ljava.lang.Object;
6: 24674649 592191576 java.lang.String
7: 5196381 540423624 org.elasticsearch.action.index.IndexRequest
8: 14667374 469355968 java.util.concurrent.locks.ReentrantLock$NonfairSync
9: 3657374 468143872 org.elasticsearch.common.cache.LocalCache
10: 15372723 245963568 java.util.concurrent.atomic.AtomicInteger
11: 14629847 234077552 java.util.concurrent.atomic.AtomicReferenceArray
12: 7306511 233808352 org.elasticsearch.common.cache.LocalCache$StrongEntry
13: 6233374 199467968 java.util.HashMap$Node
14: 5315217 170086944 org.elasticsearch.common.joda.time.format.PeriodFormatter
15: 5315215 170086880 org.elasticsearch.common.unit.TimeValue
16: 3841132 153645280 java.util.LinkedHashMap$Entry
17: 4173918 133565376 org.elasticsearch.action.bulk.BulkItemResponse
18: 1058384 131618928 [Ljava.util.HashMap$Node;
19: 5196822 124723728 org.elasticsearch.common.bytes.BytesArray
20: 3657374 117036112 [Lorg.elasticsearch.common.cache.LocalCache$Segment;
21: 7307094 116913504 org.elasticsearch.common.cache.LocalCache$StrongValueReference
22: 2792201 111688040 java.util.TreeMap$Entry
23: 1866112 89573376 org.elasticsearch.action.index.IndexResponse
24: 3657344 87776256 org.apache.lucene.util.FixedBitSet
25: 3653252 87678048 org.elasticsearch.index.cache.fixedbitset.FixedBitSetFilterCache$Value
...
_cat看堆内存使用基本如下(保持在500m附近, siwm在1g附近,贴了一条)。
load hp hc uptime fm fcm qcm im pm sm siwm siwmx svmm sfbm
18.61 86 26.6gb 18.5h 124.6mb 24mb 0b 0b -1b 593.3mb 873.8mb 10.9gb 21.2mb 918.3mb
....
目前我们的数据里有大量的数字类型,但是没有自定义mapping,都转成long保存了,联想到doc value,jmap里的数组,列式存储等等,知识体系不健全,无法准确定位,下午准备改下mapping,明天再折腾一下~
会有人回么? 哎呀,第一次在这个社区发帖子,还是这么老的版本。 waiting....
0 个回复