我有点怀疑你在刷屏

ES的正排索引(field data)转为doc values存储后如何做到disk上实时搜索的

Elasticsearch | 作者 echo0109 | 发布于2016年04月27日 | 阅读数:6650

elastic search在聚合的时候或者会利用到它的field data(正排数据)的时候,虽然已经将doc values存储到磁盘了,想知道如果在取了倒排索引之后,拿到例如有1000个doc id,是如何做到这么快就拿到对应的doc vlaues的,而且是读取磁盘啊,如何能做到实时的搜索呢。是否说,这其中读取了1000次磁盘。
 求大牛讲解
已邀请:

flowaters

赞同来自:

细节见
https://www.elastic.co/guide/e ... .html

简单说就是,doc values做了一个 doc id到列field的正排索引,根据索引来查询的。
 

hapjin

赞同来自:

正排是指:从doc_id 到 具体的 域字段(field)的映射,这是相对于倒排(term-->doc_id)而言的。
正排的实现有2类(2种存储方式):行式存储 和 列式存储:
列式存储就是 doc_values:https://www.elastic.co/guide/e ... .html。其目的是方便针对某一字段进行操作(比如聚合、排序),类似于 HBase的列式存储。
 
而行式存储,可简单地理解成:lucene index file fomart 里面的 “Stored Fields”。ES 有个store 选项就是要不要存储这个字段。
虽然说这些正排数据都存储在磁盘上,但是:它们都是经过精细的数据结构并且压缩编码后的,因而在通过倒排索引锁定 doc_id 后,能快速到找 doc_id 对应的 域字段(field)

要回复问题请先登录注册