从Logstash 1.5开始,我们可以在logstash配置中使用metadata。metadata不会在output中被序列化输出,这样我们便可以在metadata中添加一些临时的中间数据,而不需要去删除它。
我们可以通过以下方式来访问metadata:
[@metadata][foo]
用例
假设我们有这样一条日志:
[2017-04-01 22:21:21] production.INFO: this is a test log message by leon
我们可以在filter中使用grok来做解析:
grok {
match => { "message" => "\[%{TIMESTAMP_ISO8601:timestamp}\] %{DATA:env}\.%{DATA:log_level}: %{DATA:content}" }
}
解析的结果为
{
"env" => "production",
"timestamp" => "2017-04-01 22:21:21",
"log_level" => "INFO",
"content" => "{\"message\":\"[2017-04-01 22:21:21] production.INFO: this is a test log message by leon\"}"
}
假设我们希望
- 能把log_level为INFO的日志丢弃掉,但又不想让该字段出现在最终的输出中
- 输出的索引名中能体现出env,但也不想让该字段出现在输出结果里
对于1,一种方案是在输出之前通过mutate插件把不需要的字段删除掉,但是一旦这样的处理多了,会让配置文件变得“不干净”。
通过 metadata,我们可以轻松地处理这些问题:
grok {
match => { "message" => "\[%{TIMESTAMP_ISO8601:timestamp}\] %{DATA:[@metadata][env]}\.%{DATA:[@metadata][log_level]}: %{DATA:content}" }
}
if [@metadata][log_level] == "INFO"{
drop{}
}
output{
elasticsearch {
hosts => ["127.0.0.1:9200"]
index => "%{[@metadata][env]}-log-%{+YYYY.MM}"
document_type => "_doc"
}
}
除了简化我们的配置文件、减少冗余字段意外,同时也能提高logstash的处理速度。
Elasticsearch input插件
有些插件会用到metadata这个特性,比如elasticsearch input插件:
input {
elasticsearch {
host => "127.0.0.1"
# 把 ES document metadata (_index, _type, _id) 包存到 @metadata 中
docinfo_in_metadata => true
}
}
filter{
......
}
output {
elasticsearch {
document_id => "%{[@metadata][_id]}"
index => "transformed-%{[@metadata][_index]}"
type => "%{[@metadata][_type]}"
}
}
调试
一般来说metadata是不会出现在输出中的,除非使用 rubydebug codec 的方式输出:
output {
stdout {
codec => rubydebug {
metadata => true
}
}
}
日志经过处理后输出中会包含:
{
....,
"@metadata" => {
"env" => "production",
"log_level" => "INFO"
}
}
总结
由上可见,metadata提供了一种简单、方便的方式来保存中间数据。这样一方面减少了logstash配置文件的复杂性:避免调用remove_field
,另一方面也减少了输出中的一些不必要的数据。通过这篇对metadata的介绍,希望能对大家有所帮助。
[尊重社区原创,转载请保留或注明出处]
本文地址:http://searchkit.cn/article/786
本文地址:http://searchkit.cn/article/786