模式: Kafka 0.9 => SparkStreaming 2.1 => ES 6.4
用redis管理kafka offset;写入es后进行update offset;
问题一 : 这样做是否会出现重复处理数据?
问题二 : 如果会出现重复处理 那么该如何避免?
问题三: 如果不能避免 想知道自己构建id 会造成indexing速率下降很多吗?
用redis管理kafka offset;写入es后进行update offset;
问题一 : 这样做是否会出现重复处理数据?
问题二 : 如果会出现重复处理 那么该如何避免?
问题三: 如果不能避免 想知道自己构建id 会造成indexing速率下降很多吗?
2 个回复
Dapor
赞同来自:
rochy - rochy_he
赞同来自:
从 Spark 写入 ES 可以使用 ES-Hadoop 的插件
如果想完全避免重复,可以指定 ID 插入;
指定 ID 并不会对插入速率造成多大影响(仅仅是很小的下降而已),请放心使用