你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

如何在es的index中减少数据冗余问题。

Elasticsearch | 作者 Vbeifeng | 发布于2018年06月26日 | 阅读数：4002

目前的需求是:我们每个月都有5千万左右的数据，其中新增的数据大概是1千多万，剩余四千万的数据中只需要更新三个字段的值。其余信息不变。在es中的存储规则是根据一个index下边按月建立type。目前每个月都得存入五千万。有没有什么优化方式减少数据冗余。

4 个回复

laoyang360 - 《一本书讲透Elasticsearch》作者，Elastic认证工程师 [死磕Elasitcsearch]知识星球地址：http://t.cn/RmwM3N9；微信公众号：铭毅天下; 博客：https://elastic.blog.csdn.net

1.对于更新的字段走update或者update_by_query更新呢？
2.对于历史数据不使用的，可以通过定时任务走删除操作。

定期forcemerge

UnigroupAi - 高级Elasticsearch工程师

自己指定id，根据id只存储增量数据。并且建议每月建一个索引，一个索引对应一个类型（一般是doc）。6.x版本已经不支持多类型了，7.x版本会取消类型。你这种架构将来升级会很麻烦。

code4j - coder github: https://github.com/rpgmakervx

索引按天创建或者按周等等，不要保留太多数据。如果是日志，取消副本。根据业务场景，尽量避免分词字段，取消_all字段等等。

要回复问题请先登录或注册