设置参数 `node.name` 可以自定义 Elasticsearch 节点的名字。 此条 Tips 由 medcl 贡献。

如何在es的index中减少数据冗余问题。

Elasticsearch | 作者 Vbeifeng | 发布于2018年06月26日 | 阅读数:3186

目前的需求是:我们每个月都有5千万左右的数据,其中新增的数据大概是1千多万,剩余四千万的数据中只需要更新三个字段的值。其余信息不变。在es中的存储规则是根据一个index下边按月建立type。目前每个月都得存入五千万。有没有什么优化方式减少数据冗余。
已邀请:

laoyang360 - 《一本书讲透Elasticsearch》作者,Elastic认证工程师 [死磕Elasitcsearch]知识星球地址:http://t.cn/RmwM3N9;微信公众号:铭毅天下; 博客:https://elastic.blog.csdn.net

赞同来自:

1.对于更新的字段走update或者update_by_query更新呢?
2.对于历史数据不使用的,可以通过定时任务走删除操作。

luyuncheng

赞同来自:

定期forcemerge

UnigroupAi - 高级Elasticsearch工程师

赞同来自:

自己指定id,根据id只存储增量数据。并且建议每月建一个索引,一个索引对应一个类型(一般是doc)。6.x版本已经不支持多类型了,7.x版本会取消类型。你这种架构将来升级会很麻烦。

code4j - coder github: https://github.com/rpgmakervx

赞同来自:

索引按天创建或者按周等等,不要保留太多数据。如果是日志,取消副本。根据业务场景,尽量避免分词字段,取消_all字段等等。

要回复问题请先登录注册