本文摘要：在Logstash中，通过配置`multiline` codec或filter插件，可实现多行日志合并为单个事件，以适应Elasticsearch等分析工具的需求。针对Java异常堆栈跟踪等复杂日志格式，利用正则表达式精确匹配日志起始标志，并结合`what`和`negate`参数灵活处理上下文信息。这一过程涉及深入理解日志结构及不断调试优化正则规则，确保多行上下文信息有效聚合，从而提高数据分析的精准度与效率。

Logstash

在Logstash中如何处理多行日志合并为单个事件？

当我们面对复杂的日志格式，尤其是那些跨越多行的日志时，为了在Elasticsearch或其他分析工具中进行有效和准确的搜索、分析与可视化，将这些多行日志合并成单个事件就显得尤为重要。在ELK这个大名鼎鼎的套装（Elasticsearch、Logstash、Kibana）里头，Logstash可是个不可或缺的重要角色。它就像个超级能干的日志小管家，专门负责把那些乱七八糟的日志信息统统收集起来，然后精心过滤、精准传输。而在这个过程中，有个相当关键的小法宝就是内置的`multiline` codec或者filter插件，这玩意儿就是用来解决日志多行合并问题的一把好手。

1. 多行日志问题背景

在某些情况下，比如Java异常堆栈跟踪、长格式的JSON日志等，日志信息可能被分割到连续的几行中。要是不把这些日志合并在一起瞅，那就等于把每行日志都当做一个独立的小事去处理，这样一来，信息就很可能出现断片儿的情况，就像一本残缺不全的书，没法让我们全面了解整个故事。这必然会给后续的数据分析、故障排查等工作带来麻烦，让它们变得棘手不少。

2. 使用`multiline` Codec实现日志合并

示例1：使用input阶段的`multiline` codec

从Logstash的较新版本开始，推荐的做法是在`input`阶段配置`multiline` codec来直接合并多行日志：

input {
  file {
    path => "/path/to/your/logs/*.log"
    start_position => "beginning" # 或者是 "end" 以追加模式读取
    codec => multiline {
      pattern => "^%{TIMESTAMP_ISO8601}" # 自定义匹配下一行开始的正则表达式
      what => "previous" # 表示当前行与上一行合并
      negate => true # 匹配失败才合并，对于堆栈跟踪等通常第一行不匹配模式的情况有用
    }
  }
}

在这个例子中，codec会根据指定的`pattern`识别出新的一行日志的开始，并将之前的所有行合并为一个事件。当遇到新的时间戳时，Logstash认为一个新的事件开始了，然后重新开始合并过程。

3. 使用`multiline` Filter的旧版方案

在Logstash的早期版本中，`multiline`功能是通过filter插件实现的：

input {
  file {
    path => "/path/to/your/logs/*.log"
    start_position => "beginning"
  }
}
filter {
  multiline {
    pattern => "^%{TIMESTAMP_ISO8601}"
    what => "previous"
    negate => true
  }
}

尽管在最新版本中这一做法已不再推荐，但在某些场景下，你仍可能需要参考这种旧有的配置方法。

4. 解析多行日志实战思考

在实际应用中，理解并调整`multiline`配置参数至关重要。比如，这个`pattern`呐，它就像是个超级侦探，得按照你日志的“穿衣风格”准确无误地找到每一段多行日志的开头标志。再来说说这个`what`字段，它就相当于我们的小助手，告诉我们哪几行该凑到一块儿去，可能是上一个兄弟，也可能是下一个邻居。最后，还有个灵活的小开关`negate`，你可以用它来反转匹配规则，这样就能轻松应对各种千奇百怪的日志格式啦！
当你调试多行日志合并规则时，可能会经历一些曲折，因为不同的应用程序可能有着迥异的日志格式。这就需要我们化身成侦探，用敏锐的眼光去洞察，用智慧的大脑去推理，手握正则表达式的“试验田”，不断试错、不断调整优化。直到有一天，我们手中的正则表达式如同一把无比精准的钥匙，咔嚓一声，就打开了与日志结构完美匹配的那扇大门。
总结起来，在Logstash中处理多行日志合并是一个涉及对日志结构深入理解的过程，也是利用Logstash强大灵活性的一个体现。你知道吗，如果我们灵巧地使用`multiline`这个codec或者filter小工具，就能把那些本来七零八落的上下文信息，像拼图一样拼接起来，对齐得整整齐齐的。这样一来，后面我们再做数据分析时，不仅效率蹭蹭往上涨，而且结果也会准得没话说，简直不要太给力！

名词解释

作为当前文章的名词解释，仅对当前文章有效。

ELK栈：ELK栈是Elasticsearch、Logstash和Kibana三个开源工具的组合，被广泛用于日志收集、分析和可视化。其中，Elasticsearch是一个分布式、实时的搜索与分析引擎；Logstash则作为数据收集管道，用于动态获取、转换和传输日志数据；而Kibana则提供了强大的数据可视化功能，让用户能够以图形化方式展示和探索存储在Elasticsearch中的数据。

multiline codec：multiline codec是Logstash中用于处理多行日志合并的一种编码器组件。当原始日志跨越多行时，codec可以根据用户定义的正则表达式模式识别并合并这些分散的日志信息，将它们作为一个完整的事件传递给后续的数据处理流程。

正则表达式：正则表达式是一种强大且灵活的文本匹配工具，在文章语境中，它被应用于Logstash的`multiline` codec或filter配置中，用以识别多行日志中表示新事件开始的标志。通过精心设计的正则表达式，系统能精准地定位日志记录的边界，并据此进行合并操作，确保日志上下文信息得以完整保留，便于后续的数据分析和故障排查。