
社区日报 第443期 (2018-11-09)
http://t.cn/EZFBj2R
2.基于日志实现数据同步和抽取方案
http://t.cn/EAygWTO
3.从es源码发现CPU热点线程
http://t.cn/EAygE0k
重磅活动:Elastic 中国开发者大会 2018明天开始啦!!!
http://conf.elasticsearch.cn/2018/shenzhen.html
编辑:金桥
归档:https://elasticsearch.cn/article/6125
订阅:https://tinyletter.com/elastic-daily
http://t.cn/EZFBj2R
2.基于日志实现数据同步和抽取方案
http://t.cn/EAygWTO
3.从es源码发现CPU热点线程
http://t.cn/EAygE0k
重磅活动:Elastic 中国开发者大会 2018明天开始啦!!!
http://conf.elasticsearch.cn/2018/shenzhen.html
编辑:金桥
归档:https://elasticsearch.cn/article/6125
订阅:https://tinyletter.com/elastic-daily 收起阅读 »

社区日报 第442期 (2018-11-08)
http://t.cn/EAwlTOI
2、mysql同步elasticsearch调研对比
http://t.cn/EAwlE6w
3、Elastic 搜索奖,表彰那些将 Elasticsearch 用于改造业务
http://t.cn/EZFFN7C
编辑:铭毅天下
归档: https://elasticsearch.cn/article/6124
订阅:https://tinyletter.com/elastic-daily
http://t.cn/EAwlTOI
2、mysql同步elasticsearch调研对比
http://t.cn/EAwlE6w
3、Elastic 搜索奖,表彰那些将 Elasticsearch 用于改造业务
http://t.cn/EZFFN7C
编辑:铭毅天下
归档: https://elasticsearch.cn/article/6124
订阅:https://tinyletter.com/elastic-daily 收起阅读 »

社区日报 第441期 (2018-11-07)
http://t.cn/EwklpZS
2. Elasticsearch.net项目实战
http://t.cn/Ewklktq
3. Elasticsearch mapping 设计总结
http://t.cn/EwkjXZA
编辑:江水
归档:https://elasticsearch.cn/article/6123
订阅:https://tinyletter.com/elastic-daily
http://t.cn/EwklpZS
2. Elasticsearch.net项目实战
http://t.cn/Ewklktq
3. Elasticsearch mapping 设计总结
http://t.cn/EwkjXZA
编辑:江水
归档:https://elasticsearch.cn/article/6123
订阅:https://tinyletter.com/elastic-daily
收起阅读 »

社区日报 第440期 (2018-11-06)
http://t.cn/Ewg9RGi
2.(自备梯子)index 设置为 false 在 text 和 keyword 类型中表现是有差异的
http://t.cn/Ewg9FFq
3.(自备梯子)es 在电商中商品分析与排序的一点思路分享
http://t.cn/EwgCLtk
直播活动:
1.Elastic 官方直播分享活动:Introduction To ElasticStack,快来报名吧!
http://t.cn/EwgCtkP
编辑:rockybean
归档:https://elasticsearch.cn/article/6122
订阅:https://tinyletter.com/elastic-daily
http://t.cn/Ewg9RGi
2.(自备梯子)index 设置为 false 在 text 和 keyword 类型中表现是有差异的
http://t.cn/Ewg9FFq
3.(自备梯子)es 在电商中商品分析与排序的一点思路分享
http://t.cn/EwgCLtk
直播活动:
1.Elastic 官方直播分享活动:Introduction To ElasticStack,快来报名吧!
http://t.cn/EwgCtkP
编辑:rockybean
归档:https://elasticsearch.cn/article/6122
订阅:https://tinyletter.com/elastic-daily 收起阅读 »

社区日报 第439期 (2018-11-05)
http://t.cn/Ew8p7PD
2.你应该了解的5个logstash插件
http://t.cn/RrEiE3j
3.高效管理基于时间的索引
http://t.cn/REFMMZM
编辑:cyberdak
归档:https://elasticsearch.cn/article/6121
订阅:https://tinyletter.com/elastic-daily
http://t.cn/Ew8p7PD
2.你应该了解的5个logstash插件
http://t.cn/RrEiE3j
3.高效管理基于时间的索引
http://t.cn/REFMMZM
编辑:cyberdak
归档:https://elasticsearch.cn/article/6121
订阅:https://tinyletter.com/elastic-daily
收起阅读 »

社区日报 第438期 (2018-11-04)
http://t.cn/EwClFun
2.(自备梯子)Netflix数据管道的演变。
http://t.cn/EwCTGgw
3.(自备梯子)在Docker容器中运行bash或任何命令。
http://t.cn/EwCEbxU
编辑:至尊宝
归档:https://elasticsearch.cn/article/3699
订阅:https://tinyletter.com/elastic-daily
http://t.cn/EwClFun
2.(自备梯子)Netflix数据管道的演变。
http://t.cn/EwCTGgw
3.(自备梯子)在Docker容器中运行bash或任何命令。
http://t.cn/EwCEbxU
编辑:至尊宝
归档:https://elasticsearch.cn/article/3699
订阅:https://tinyletter.com/elastic-daily 收起阅读 »

社区日报 第437期 (2018-11-03)
http://t.cn/EwiSWFC
2、一款对聚合结果利用线性回归实时预测的插件
http://t.cn/EwiXJ9g
3、一周热点:如果我在那辆重庆公交上
http://t.cn/Ewitdiv
编辑: bsll
归档:https://elasticsearch.cn/article/3698
订阅:https://tinyletter.com/elastic-daily
http://t.cn/EwiSWFC
2、一款对聚合结果利用线性回归实时预测的插件
http://t.cn/EwiXJ9g
3、一周热点:如果我在那辆重庆公交上
http://t.cn/Ewitdiv
编辑: bsll
归档:https://elasticsearch.cn/article/3698
订阅:https://tinyletter.com/elastic-daily 收起阅读 »

访谈:Elastic 在今日头条广告系统中的大规模应用
欢迎来到 Elastic 社区电台的第七期节目,我们本期节目的嘉宾是来自于今日头条广告系统的工程师徐磊和张海雷,今日头条作为业界非常流行的新闻资讯类软件,坐拥上亿互联网用户,其内部目前正大量使用了 Elasticsearch 来解决各式各样的业务问题,最早从15年开始的接触,到如今多达几十个集群的规模,以及成为公司平台化的基础服务,承载着PB级规模的数据,快来收听本期节目来一探究竟吧。
嘉宾
- 张海雷,今日头条广告系统研发工程师,现负责ES平台的运维以及平台化建设。
- 徐磊,今日头条广告系统研发工程师,有3年大规模ELK集群运维及平台化经验。
主持人
Elastic 技术布道师,曾勇(Medcl)。
收听
可以点击下面的任意链接来收听(时长约 34 分钟):
- Apple iTunes: https://itunes.apple.com/cn/podcast/elastic-%E7%A4%BE%E5%8C%BA%E7%94%B5%E5%8F%B0/
- 喜马拉雅:https://www.ximalaya.com/keji/14965410/133699689
- 蜻蜓 FM:https://www.qingting.fm/channels/244978/programs/10050814
关于今日头条
北京字节跳动科技有限公司成立于2012年3月,公司的主要产品“今日头条”客户端,是一款基于数据挖掘技术的个性化推荐引擎产品。“今日头条”致力于帮助用户在移动互联网上方便快捷地获取最有价值的信息,它会根据用户的兴趣为其推荐内容,这是对传统信息分发方式的一次巨大颠覆
“今日头条”面市后,迅速获得市场认可,长期占据苹果应用商店新闻类榜首。目前已有超过160万个个人、组织开设头条号。
关于 Elastic 社区电台
Elastic 开源社区举办的一款播客类节目, 邀请来自开源社区的用户,一起聊聊 Elastic 开源产品的使用案例、经验分享、架构变迁等等。
欢迎来到 Elastic 社区电台的第七期节目,我们本期节目的嘉宾是来自于今日头条广告系统的工程师徐磊和张海雷,今日头条作为业界非常流行的新闻资讯类软件,坐拥上亿互联网用户,其内部目前正大量使用了 Elasticsearch 来解决各式各样的业务问题,最早从15年开始的接触,到如今多达几十个集群的规模,以及成为公司平台化的基础服务,承载着PB级规模的数据,快来收听本期节目来一探究竟吧。
嘉宾
- 张海雷,今日头条广告系统研发工程师,现负责ES平台的运维以及平台化建设。
- 徐磊,今日头条广告系统研发工程师,有3年大规模ELK集群运维及平台化经验。
主持人
Elastic 技术布道师,曾勇(Medcl)。
收听
可以点击下面的任意链接来收听(时长约 34 分钟):
- Apple iTunes: https://itunes.apple.com/cn/podcast/elastic-%E7%A4%BE%E5%8C%BA%E7%94%B5%E5%8F%B0/
- 喜马拉雅:https://www.ximalaya.com/keji/14965410/133699689
- 蜻蜓 FM:https://www.qingting.fm/channels/244978/programs/10050814
关于今日头条
北京字节跳动科技有限公司成立于2012年3月,公司的主要产品“今日头条”客户端,是一款基于数据挖掘技术的个性化推荐引擎产品。“今日头条”致力于帮助用户在移动互联网上方便快捷地获取最有价值的信息,它会根据用户的兴趣为其推荐内容,这是对传统信息分发方式的一次巨大颠覆
“今日头条”面市后,迅速获得市场认可,长期占据苹果应用商店新闻类榜首。目前已有超过160万个个人、组织开设头条号。
关于 Elastic 社区电台
Elastic 开源社区举办的一款播客类节目, 邀请来自开源社区的用户,一起聊聊 Elastic 开源产品的使用案例、经验分享、架构变迁等等。
收起阅读 »
社区日报 第436期 (2018-11-02)
http://t.cn/EZFBj2R
2.Lucene倒排索引简述 之倒排表
http://t.cn/Ew5bwiE
3.Elasticsearch下分布式存储的数据分布
http://t.cn/Ew5bU5G
编辑:铭毅天下
归档:https://elasticsearch.cn/article/3682
订阅:https://tinyletter.com/elastic-daily
http://t.cn/EZFBj2R
2.Lucene倒排索引简述 之倒排表
http://t.cn/Ew5bwiE
3.Elasticsearch下分布式存储的数据分布
http://t.cn/Ew5bU5G
编辑:铭毅天下
归档:https://elasticsearch.cn/article/3682
订阅:https://tinyletter.com/elastic-daily 收起阅读 »

社区日报 第435期 (2018-11-01)
http://t.cn/EwtwDxL
从Elastic APM发送数据到Logstash或Kafka
http://t.cn/EwtAzg3
使用Elasticsearch增强Wordpress搜索功能
http://t.cn/EwtAyhK
编辑:金桥
归档:https://elasticsearch.cn/article/3681
订阅:https://tinyletter.com/elastic-daily
http://t.cn/EwtwDxL
从Elastic APM发送数据到Logstash或Kafka
http://t.cn/EwtAzg3
使用Elasticsearch增强Wordpress搜索功能
http://t.cn/EwtAyhK
编辑:金桥
归档:https://elasticsearch.cn/article/3681
订阅:https://tinyletter.com/elastic-daily 收起阅读 »

社区日报 第434期 (2018-10-31)
http://t.cn/Ew2Wibs
2. 日志汇集系统搭建
http://t.cn/RDg9wU2
3. Elasticsearch通过reroute api重新分配分片
http://t.cn/Ew2lS08
编辑:江水
归档:https://elasticsearch.cn/article/3680
订阅:https://tinyletter.com/elastic-daily
http://t.cn/Ew2Wibs
2. 日志汇集系统搭建
http://t.cn/RDg9wU2
3. Elasticsearch通过reroute api重新分配分片
http://t.cn/Ew2lS08
编辑:江水
归档:https://elasticsearch.cn/article/3680
订阅:https://tinyletter.com/elastic-daily 收起阅读 »

社区日报 第433期 (2018-10-30)
http://t.cn/EwvuIHq
2、Elasticsearch文档和映射。
http://t.cn/EwvkYbt
3、Elasticsearch快速指南。
http://t.cn/Ewvk8JY
编辑:叮咚光军
归档:https://elasticsearch.cn/article/1021
订阅:https://tinyletter.com/elastic-daily
http://t.cn/EwvuIHq
2、Elasticsearch文档和映射。
http://t.cn/EwvkYbt
3、Elasticsearch快速指南。
http://t.cn/Ewvk8JY
编辑:叮咚光军
归档:https://elasticsearch.cn/article/1021
订阅:https://tinyletter.com/elastic-daily 收起阅读 »

社区日报 第432期 (2018-10-29)
http://t.cn/EZECcbY
2.elastalert的kibana插件,从此可以在kibana中方便配置报警规则
http://t.cn/EZmaw65
3.nginx 与 elasticsearch 结合使用
http://t.cn/RwF1kqE
编辑:cyberdak
归档:https://elasticsearch.cn/article/1008
订阅:https://tinyletter.com/elastic-daily
http://t.cn/EZECcbY
2.elastalert的kibana插件,从此可以在kibana中方便配置报警规则
http://t.cn/EZmaw65
3.nginx 与 elasticsearch 结合使用
http://t.cn/RwF1kqE
编辑:cyberdak
归档:https://elasticsearch.cn/article/1008
订阅:https://tinyletter.com/elastic-daily
收起阅读 »

社区日报 第431期 (2018-10-28)
http://t.cn/EZQhdz5
2.使用Yelp的数据管道和Elasticsearch进行快速订单搜索。
http://t.cn/EZQzCpw
3.(自备梯子)数据科学家最需要的技能。
http://t.cn/E7jAYl9
编辑:至尊宝
归档:https://elasticsearch.cn/article/1007
订阅:https://tinyletter.com/elastic-daily
http://t.cn/EZQhdz5
2.使用Yelp的数据管道和Elasticsearch进行快速订单搜索。
http://t.cn/EZQzCpw
3.(自备梯子)数据科学家最需要的技能。
http://t.cn/E7jAYl9
编辑:至尊宝
归档:https://elasticsearch.cn/article/1007
订阅:https://tinyletter.com/elastic-daily 收起阅读 »

ELK 使用小技巧(第 1 期)
ELK Tips 主要介绍一些 ELK 使用过程中的小技巧,内容主要来源为 Elastic 中文社区。
一、Logstash
1、Logstash 字符串分割(Split)
以下配置将 message
内容按照 \t
进行切分,为了使 \t
生效需要将 logstah.yml 中配置项 config.support_escapes
设置为 true,当设置为 true 时,带引号的字符串将处理转义字符,默认值为 false。
filter {
mutate {
split => {"message" => "\t"}
add_field => {
"ftimeold" => "%{[message][0]}"
}
}
}
2、Logstash 按文件读取内容并存储到 ES
下面的配置将读取/home/txts/*
下的文件,并读取整个文件内容,然后将文件内容存储到 test-text
索引中,同时该条记录的 _id
为文档的文件名。这里需要注意的是,想读取到文档末尾时,分隔符需设置为 EOF
。
input {
file {
path => ["/home/txts/*"]
start_position => "beginning"
mode => "read"
delimiter => "EOF"
file_completed_action => "log"
file_completed_log_path => "/home/logs/file.log"
}
}
output {
elasticsearch {
hosts => ["http://192.168.3.214:9200/"]
index => "test-text"
document_id => "%{path}"
}
stdout {}
}
3、ES Ingest Node 脚本案例
Ingest Node 可以使用多种过滤器对数据进行处理,其中 Script 脚本的功能非常强大,下面的案例实现了将一个 Json 结构进行了 Flat 化:
{
"script" : {
"lang" : "painless",
"source" : "def dict = ['result': new HashMap()]; for (entry in ctx['json'].entrySet()) { dict['result'][entry.getKey()] = entry.getValue(); } ctx['osquery'] = dict; ctx.remove('json');"
}
}
4、Logstash input file 插件中 sincedb 维护问题
- 如果不想保存 sincedb,可以使用下面配置:
sincedb_path => "/dev/null"
; - 如果希望被扫描的记录超过一段时间后自动被清除,可以使用
sincedb_clean_after => "2 weeks"
来实现,sincedb_clean_after
表示当一个文件在设定的时间内没有发生过任何变化,则关于这个文件的扫描记录将不会存储到 sincedb 里面,简单来说就是一条记录的过期时间。
二、Elasticsearch
1、ES 查询结果的一致性
为了保证用户每次查询结果的一致性(文档在结果中的顺序),可以在查询 url 里添加 preference=<some string>
这个参数,其中<some string>
可以是用户的 session ID,这样某一个用户查询的时候,查询会被固定在某几个 shard。
2、同义词的扩展或收缩
- 简单扩展,把同义词列表中的任意一个词扩展成同义词列表所有的词:
jump,hop,leap
; - 简单收缩,把左边的多个同义词映射到了右边的单个词:
leap,hop => jump
; - 类型扩展,完全不同于简单收缩或扩张,并不是平等看待所有的同义词,而是扩大了词的意义使被拓展的词更为通用:
"cat => cat,pet", "kitten => kitten,cat,pet", "dog => dog,pet" "puppy => puppy,dog,pet"
3、设置某个索引为只读状态
index.blocks.write
设置为 true 来禁止对索引的写操作,但索引的 metadatra 可以正常写。
PUT indexName/_settings
{
"index.blocks.write": true
}
4、Failed to process cluster event (put-mapping) within 30s
这个是创建 mapping 的时候超时了,默认是 30s 应该是集群处理不过来了。索引文件太多,使得集群的状态数据过多过大,在每个小时新建索引和设置索引 mapping 的时候,就产生集群状态更新任务交给 master 处理,master 在变更状态数据的时候是单线程处理的,如果集群总的状态数据很大,master处理这些任务就容易出现超时。
解决办法:
- 控制集群的总的索引数量,shard 数量;
- 如果同时创建的索引非常多,最好避免通过写入数据自动创建索引;
- 可以通过 cron 任务,预先顺序的创建好索引。
5、Get 查询获取不到数据,但是用 _search 就可以查询到
这种情况一般在索引时候加入了路由字段(routing),那么在 get,delete,update 操作中都必须使用路由字段。
PUT my_index/my_type/1?routing=user1&refresh=true
{
"title": "This is a document"
}
GET my_index/my_type/1?routing=user1
6、ES 5.X 版本多个 type 的数据迁移到 6.X
把 5.x 集群中的索引按不同 type 拆分 reindex 到 6.x 集群索引中,然后将拆分出来的多个索引使用别名进行组织;例如 5.x 集群中有索引 IndexA,该索引上有 typeA 和 typeB,reindex 到 6.x 集群IndexA_TypeA
和IndexB_TypeB
,reindex 语句如下所示:
POST _reindex
{
"source": {
"index": "IndexA",
"type": "TypeA",
"size": 10000
},
"dest": {
"index": "IndexA_TypeA"
}
}
最后给 6.x 集群的IndexA_TypeA
和IndexB_TypeB
添加别名 IndexA,用户查询时使用的索引名称就不用变化。
POST _aliases
{
"actions": [
{"add": {"index": "IndexA_TypeA", "alias": "IndexA"}},
{"add": {"index": "IndexA_TypeB", "alias": "IndexA"}}
]
}
7、reindex 将多个索引合并成一个索引,需要重新设置新索引的 mapping 吗?
需要在 reindex 之前为新索引重新设置 mapping ,reindex 只是通过类似 scroll 的方式把数据 bulk 到新的索引,不会自动同步原索引的 mappings 信息。
8、集群的 discovery.zen.ping.unicast.hosts 配置
只需要配置主节点(master)地址即可。
discovery.zen.ping.unicast.hosts:
- 192.168.1.10:9300
- 192.168.1.11
- seeds.mydomain.com
9、ES 的 path.data 配置多个盘的路径,查询效率与单个存储盘的效率比,哪个效率高些?
想最大程度发挥磁盘读写 io,还是推荐 RAID0。
使用多路径不一定会提升读写速度,和集群 shard 的数量有关系;主要是因为一个 shard 对应的文件,只会放到其中一块磁盘上,不会跨磁盘存储。比如一个极端的场景,集群 shard 数量比较少,每个结点上就一个shard,那么读写只会有一块磁盘发挥作用,其他磁盘都空闲的。
多路径对读写有提升比较大的场景,是每个结点上 shard 数量至少比盘的数量多,并且 shard 大小也差别不太多;shard 数量比较少,shard 大小差别太大,可能产生读写热点问题,即有的磁盘磁盘很忙,有的很闲。
ES 不会将一个索引的主副分片分配到同一台机器,所以即使一台机器的 RAID0 坏了,不会导致数据丢失,仅仅是副本没有了。
用 RAID0 的负面影响主要是磁盘损坏的时候,需要恢复的数据比较多;多路径磁盘,坏一块只会丢一部分数据,恢复数据会比较快;但是他也有缺陷,比如容易出现读写热点问题以及磁盘空间使用不均匀问题。
10、查询索引分片(Shard)位置的接口
# 推荐
GET /_cat/shards/<index_name>?v
GET /_cluster/state/routing_table
11、multi_match 与 match_phrase 的区别
- multi_match 是对
boolQuery().should(matchQuery(field, keyword))
的一种简化,简单说就是一个关键词,匹配多个字段,匹配方式为 matchQuery,正常的全文匹配。 - match_phrase 简单说就是要匹配一个短语,例如你输入的文本为:中国人,如果被分词为:中国/人,那么查找时候会在指定的字段先查找到 "中国" 这个 term,然后在 "中国" 这个 term 后面去查找 "人"这个term(有顺序要求),如果匹配到则认为匹配成功;所以更像是在匹配一个短语(连贯的句子)。
12、analyzer, tokenizer, token-filter 有什么区别
- analyzer :分析器,analyzer = 1 个 tokenizer + 若干个 token-filter;
- tokenizer :分词器,主要用于对文本进行切割;
- token-filter :过滤器,主要对 tokenizer 切割后的 term 进行再次处理。
13、_source 字段的用途
简单来说:_source 字段用于存储最原始的 JSON 文档内容(创建索引时传递的),这个字段不能被搜索,它可以在 get 或者 search 请求阶段进行返回;此外它会参与字段高亮计算、文档的更新等操作,一般不推荐关闭 _source 字段。
三、Kibana
1、kibana 表格默认排序
在设计表格的时候直接点击需要排序的那一列,然后让它按照倒序或者正序排序,然后点击保存即可,这样这个表格默认就是按照这一列倒序或者正序排列的。
Any Code,Code Any!
扫码关注『AnyCode』,编程路上,一起前行。
ELK Tips 主要介绍一些 ELK 使用过程中的小技巧,内容主要来源为 Elastic 中文社区。
一、Logstash
1、Logstash 字符串分割(Split)
以下配置将 message
内容按照 \t
进行切分,为了使 \t
生效需要将 logstah.yml 中配置项 config.support_escapes
设置为 true,当设置为 true 时,带引号的字符串将处理转义字符,默认值为 false。
filter {
mutate {
split => {"message" => "\t"}
add_field => {
"ftimeold" => "%{[message][0]}"
}
}
}
2、Logstash 按文件读取内容并存储到 ES
下面的配置将读取/home/txts/*
下的文件,并读取整个文件内容,然后将文件内容存储到 test-text
索引中,同时该条记录的 _id
为文档的文件名。这里需要注意的是,想读取到文档末尾时,分隔符需设置为 EOF
。
input {
file {
path => ["/home/txts/*"]
start_position => "beginning"
mode => "read"
delimiter => "EOF"
file_completed_action => "log"
file_completed_log_path => "/home/logs/file.log"
}
}
output {
elasticsearch {
hosts => ["http://192.168.3.214:9200/"]
index => "test-text"
document_id => "%{path}"
}
stdout {}
}
3、ES Ingest Node 脚本案例
Ingest Node 可以使用多种过滤器对数据进行处理,其中 Script 脚本的功能非常强大,下面的案例实现了将一个 Json 结构进行了 Flat 化:
{
"script" : {
"lang" : "painless",
"source" : "def dict = ['result': new HashMap()]; for (entry in ctx['json'].entrySet()) { dict['result'][entry.getKey()] = entry.getValue(); } ctx['osquery'] = dict; ctx.remove('json');"
}
}
4、Logstash input file 插件中 sincedb 维护问题
- 如果不想保存 sincedb,可以使用下面配置:
sincedb_path => "/dev/null"
; - 如果希望被扫描的记录超过一段时间后自动被清除,可以使用
sincedb_clean_after => "2 weeks"
来实现,sincedb_clean_after
表示当一个文件在设定的时间内没有发生过任何变化,则关于这个文件的扫描记录将不会存储到 sincedb 里面,简单来说就是一条记录的过期时间。
二、Elasticsearch
1、ES 查询结果的一致性
为了保证用户每次查询结果的一致性(文档在结果中的顺序),可以在查询 url 里添加 preference=<some string>
这个参数,其中<some string>
可以是用户的 session ID,这样某一个用户查询的时候,查询会被固定在某几个 shard。
2、同义词的扩展或收缩
- 简单扩展,把同义词列表中的任意一个词扩展成同义词列表所有的词:
jump,hop,leap
; - 简单收缩,把左边的多个同义词映射到了右边的单个词:
leap,hop => jump
; - 类型扩展,完全不同于简单收缩或扩张,并不是平等看待所有的同义词,而是扩大了词的意义使被拓展的词更为通用:
"cat => cat,pet", "kitten => kitten,cat,pet", "dog => dog,pet" "puppy => puppy,dog,pet"
3、设置某个索引为只读状态
index.blocks.write
设置为 true 来禁止对索引的写操作,但索引的 metadatra 可以正常写。
PUT indexName/_settings
{
"index.blocks.write": true
}
4、Failed to process cluster event (put-mapping) within 30s
这个是创建 mapping 的时候超时了,默认是 30s 应该是集群处理不过来了。索引文件太多,使得集群的状态数据过多过大,在每个小时新建索引和设置索引 mapping 的时候,就产生集群状态更新任务交给 master 处理,master 在变更状态数据的时候是单线程处理的,如果集群总的状态数据很大,master处理这些任务就容易出现超时。
解决办法:
- 控制集群的总的索引数量,shard 数量;
- 如果同时创建的索引非常多,最好避免通过写入数据自动创建索引;
- 可以通过 cron 任务,预先顺序的创建好索引。
5、Get 查询获取不到数据,但是用 _search 就可以查询到
这种情况一般在索引时候加入了路由字段(routing),那么在 get,delete,update 操作中都必须使用路由字段。
PUT my_index/my_type/1?routing=user1&refresh=true
{
"title": "This is a document"
}
GET my_index/my_type/1?routing=user1
6、ES 5.X 版本多个 type 的数据迁移到 6.X
把 5.x 集群中的索引按不同 type 拆分 reindex 到 6.x 集群索引中,然后将拆分出来的多个索引使用别名进行组织;例如 5.x 集群中有索引 IndexA,该索引上有 typeA 和 typeB,reindex 到 6.x 集群IndexA_TypeA
和IndexB_TypeB
,reindex 语句如下所示:
POST _reindex
{
"source": {
"index": "IndexA",
"type": "TypeA",
"size": 10000
},
"dest": {
"index": "IndexA_TypeA"
}
}
最后给 6.x 集群的IndexA_TypeA
和IndexB_TypeB
添加别名 IndexA,用户查询时使用的索引名称就不用变化。
POST _aliases
{
"actions": [
{"add": {"index": "IndexA_TypeA", "alias": "IndexA"}},
{"add": {"index": "IndexA_TypeB", "alias": "IndexA"}}
]
}
7、reindex 将多个索引合并成一个索引,需要重新设置新索引的 mapping 吗?
需要在 reindex 之前为新索引重新设置 mapping ,reindex 只是通过类似 scroll 的方式把数据 bulk 到新的索引,不会自动同步原索引的 mappings 信息。
8、集群的 discovery.zen.ping.unicast.hosts 配置
只需要配置主节点(master)地址即可。
discovery.zen.ping.unicast.hosts:
- 192.168.1.10:9300
- 192.168.1.11
- seeds.mydomain.com
9、ES 的 path.data 配置多个盘的路径,查询效率与单个存储盘的效率比,哪个效率高些?
想最大程度发挥磁盘读写 io,还是推荐 RAID0。
使用多路径不一定会提升读写速度,和集群 shard 的数量有关系;主要是因为一个 shard 对应的文件,只会放到其中一块磁盘上,不会跨磁盘存储。比如一个极端的场景,集群 shard 数量比较少,每个结点上就一个shard,那么读写只会有一块磁盘发挥作用,其他磁盘都空闲的。
多路径对读写有提升比较大的场景,是每个结点上 shard 数量至少比盘的数量多,并且 shard 大小也差别不太多;shard 数量比较少,shard 大小差别太大,可能产生读写热点问题,即有的磁盘磁盘很忙,有的很闲。
ES 不会将一个索引的主副分片分配到同一台机器,所以即使一台机器的 RAID0 坏了,不会导致数据丢失,仅仅是副本没有了。
用 RAID0 的负面影响主要是磁盘损坏的时候,需要恢复的数据比较多;多路径磁盘,坏一块只会丢一部分数据,恢复数据会比较快;但是他也有缺陷,比如容易出现读写热点问题以及磁盘空间使用不均匀问题。
10、查询索引分片(Shard)位置的接口
# 推荐
GET /_cat/shards/<index_name>?v
GET /_cluster/state/routing_table
11、multi_match 与 match_phrase 的区别
- multi_match 是对
boolQuery().should(matchQuery(field, keyword))
的一种简化,简单说就是一个关键词,匹配多个字段,匹配方式为 matchQuery,正常的全文匹配。 - match_phrase 简单说就是要匹配一个短语,例如你输入的文本为:中国人,如果被分词为:中国/人,那么查找时候会在指定的字段先查找到 "中国" 这个 term,然后在 "中国" 这个 term 后面去查找 "人"这个term(有顺序要求),如果匹配到则认为匹配成功;所以更像是在匹配一个短语(连贯的句子)。
12、analyzer, tokenizer, token-filter 有什么区别
- analyzer :分析器,analyzer = 1 个 tokenizer + 若干个 token-filter;
- tokenizer :分词器,主要用于对文本进行切割;
- token-filter :过滤器,主要对 tokenizer 切割后的 term 进行再次处理。
13、_source 字段的用途
简单来说:_source 字段用于存储最原始的 JSON 文档内容(创建索引时传递的),这个字段不能被搜索,它可以在 get 或者 search 请求阶段进行返回;此外它会参与字段高亮计算、文档的更新等操作,一般不推荐关闭 _source 字段。
三、Kibana
1、kibana 表格默认排序
在设计表格的时候直接点击需要排序的那一列,然后让它按照倒序或者正序排序,然后点击保存即可,这样这个表格默认就是按照这一列倒序或者正序排列的。
Any Code,Code Any!
扫码关注『AnyCode』,编程路上,一起前行。