[论文解读] Length Matters: Clustering System Log Messages using Length of Words
本文提出LenMa,一种单次遍历、在线的系统日志消息聚类方法,通过词长序列推断模板,无需频率分析或两遍处理。通过将每个消息视为词长序列,该方法在模板聚类准确率上与现有方法(如SHISO)相当,同时实现了对云环境和分布式系统中动态日志模式的实时适应。
The analysis techniques of system log messages (syslog messages) have a long history from when the syslog mechanism was invented. Typically, the analysis consists of two parts, one is a message template generation, and the other is finding something interesting using the messages classified by the inferred templates. It is important to generate better templates to achieve better, precise, or convincible analysis results. In this paper, we propose a classification methodology using the length of words of each message. Our method is suitable for online template generation because it does not require two-pass analysis to generate template messages, that is an important factor considering increasing amount of log messages produced by a large number of system components such as cloud infrastructure.
研究动机与目标
- 解决云基础设施等动态环境中实时、可扩展的系统日志消息聚类挑战。
- 通过避免两遍分析和基于频率的词选择,降低模板生成的复杂度。
- 探究仅使用词长序列是否可作为聚类日志消息的可靠基础。
- 实现在线、自适应的模板挖掘,能够快速响应因软件更新或新增组件导致的日志消息模式变化。
提出的方法
- 该方法将每个日志消息表示为词长序列,将每个词的字符数作为特征。
- 应用相似度阈值(Tc = 0.9)和最小词数阈值(Tp = 3),基于匹配的长度序列将消息分组为聚类。
- 聚类过程为单次遍历,适用于高吞吐量日志流的实时处理。
- 该方法不分析词内容、字符类型或频率,仅关注消息中每个词的长度。
- 采用简单的向量比较:具有相同或高度相似词长序列的消息被归为一组。
- 该方法设计轻量且可扩展,避免复杂预处理或训练阶段。
实验结果
研究问题
- RQ1仅使用词长序列是否可作为聚类系统日志消息的可靠且充分基础?
- RQ2与基于频率或字符类型的多遍方法相比,单次遍历、基于长度的聚类方法在模板准确率和可扩展性方面表现如何?
- RQ3该方法是否能有效处理云和分布式系统中的动态日志模式,而无需先验知识或训练?
- RQ4在真实世界日志数据集中,相似度和最小词数的最优阈值取值是多少?
主要发现
- 在log/secure数据集上,LenMa与SHISO(26个模板)达到相当的模板数量(26个),表明其在简化处理下仍具备竞争力。
- 该方法成功将132,480个一分钟内的日志组聚类为25个不同的消息模式聚类,显示出强大的模式识别能力。
- 频繁出现的模式如SSH连接尝试和节点重启被成功识别并从日志流中分离。
- 该方法检测到异常行为如异常SSH活动和系统重启,表明其在异常检测中的实用性。
- 尽管未使用词频或字符类型分析,LenMa仍生成了与已知系统行为相符的有意义聚类。
- 该方法在在线处理中表现有效,实现了无需两遍分析开销的实时模板推断。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。