你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
发现
分享
文章
活动
登录
用了Elasticsearch,一口气上5T
spark调用bulkprocessor批量入库es,存在少量丢数
Elasticsearch
| 作者
liangfuru2020
| 发布于2020年08月20日 | 阅读数:
2687
分享到:
QQ空间
新浪微博
微信
QQ好友
印象笔记
有道云笔记
elasticsearch使用spark调用bulkprocessor批量入库es,2亿数据量丢数几百条不知道怎么定位丢数,index字段数据类型已定制成全keyword类型,似乎不是因为类型导致丢数,数据源是标准交易数据,脏数据的概率比较低,请问大家有思路定位分析一下丢数原因
没有找到相关结果
已邀请:
与内容相关的链接
提交
2 个回复
locatelli
赞同来自:
在ES这端有看到这么错误或者警告吗?
这个问题更有可能是在spark或者源数据。如果是某个spark的task失败并没有重试,那么应该是spark的责任来确保重试,而且日志里会有报错。
如果两端都没有报错,那源数据里出现了重复的可能性很大。
Charele
-
Cisco4321
赞同来自:
首先确定数据是不是真的少了,还是统计有误。
没用过你说的Spark的方式导入ES,所以不知道是怎么操作的。
如果是用自动文档id的话,不应该出现少数据的情况啊
如果是手动指定的文档id,就另当别论了。
要回复问题请先
登录
或
注册
发起人
liangfuru2020
活动推荐
Aug
15
2025 Zabbix 中国峰会
上海
·
8-15 周五
·
报名中
Oct
17
第27届 GOPS 全球运维大会暨研运数智化技术峰会 · 上海站
上海
·
10-17 周五
·
报名中
相关问题
添加了ik自定义分词,之前入库的数据不能搜索出来,这个有什么好的解决方法?
elasticsearch 批量删除 导致使用磁盘容量上升
ik 分词 远程扩展字典能配制调用频率吗
filebeat和ELK全用了6.2.4了,kafka是1.1.0,filebeat写入kafka后,所有信息都保存在message字段中,怎么才能把message里面的字段都单独分离出来呢?
如果目前索引已存在,如何增加分片数量?
使用Spark在cdh上执行ES插入,报错java.lang.NoSuchFieldError: INSTANCE
批量导入ES时,自定义索引id引发的性能问题(导入接近10亿左右的索引)
es如何导入批量的文件
elasticsearch,bulk批量导入会有数据丢失,如何在大批量数据导入的情况下,数据完全写入?用logstash缓冲?
CVE-2018-17244 这个漏洞如果已经使用search-guard-ssl进行加固后,还会存在这个问题吗?
服务器监控数据可以保存在es么
问题状态
最新活动:
2020-08-21 11:41
浏览:
2687
关注:
3
人
2 个回复
locatelli
赞同来自:
这个问题更有可能是在spark或者源数据。如果是某个spark的task失败并没有重试,那么应该是spark的责任来确保重试,而且日志里会有报错。
如果两端都没有报错,那源数据里出现了重复的可能性很大。
Charele - Cisco4321
赞同来自:
没用过你说的Spark的方式导入ES,所以不知道是怎么操作的。
如果是用自动文档id的话,不应该出现少数据的情况啊
如果是手动指定的文档id,就另当别论了。