Q:有两个人掉到陷阱里了,死的人叫死人,活人叫什么?

使用spark向elasticsearch中写入数据会超出本来的数量

Elasticsearch | 作者 hzhgagaga | 发布于2019年07月17日 | 阅读数:1556


经常出现这种错误failed; server[***地址和谐***] returned [504|Gateway Timeout:],本来表数据只有2000多万,有时候会出现很多504然后es看有3000万数据,一般我遇到这种情况都是删掉es的数据重新执行spark,重洗执行一两次就能正常了,但这个不是办法,这种情况是数据导入速率过快es负载不足还是什么原因,有什么控制导入速率的方法吗?
 
已邀请:

HelloClyde

赞同来自:

是因为重试+没指定doc id吧

要回复问题请先登录注册