Skip to main content
QUICK REVIEW

[论文解读] DeLog: An Efficient Log Compression Framework with Pattern Signature Synthesis

Siyu Yu, Yifan Wu|arXiv (Cornell University)|Jan 21, 2026
Software System Performance and Reliability被引用 0
一句话总结

DeLog 挑战解析准确性与压缩之间的假设关联;它引入单次遍历的模式签名合成,以形成同质、可压缩的标记组,在公开及生产日志上实现了最先进的结果。

ABSTRACT

Parser-based log compression, which separates static templates from dynamic variables, is a promising approach to exploit the unique structure of log data. However, its performance on complex production logs is often unsatisfactory. This performance gap coincides with a known degradation in the accuracy of its core log parsing component on such data, motivating our investigation into a foundational yet unverified question: does higher parsing accuracy necessarily lead to better compression ratio? To answer this, we conduct the first empirical study quantifying this relationship and find that a higher parsing accuracy does not guarantee a better compression ratio. Instead, our findings reveal that compression ratio is dictated by achieving effective pattern-based grouping and encoding, i.e., the partitioning of tokens into low entropy, highly compressible groups. Guided by this insight, we design DeLog, a novel log compressor that implements a Pattern Signature Synthesis mechanism to achieve efficient pattern-based grouping. On 16 public and 10 production datasets, DeLog achieves state-of-the-art compression ratio and speed.

研究动机与目标

  • 质疑更高的日志解析准确性是否会提高压缩比。
  • 开发一个优先考虑基于模式的分组而非解析准确性的压缩框架。
  • 设计一个单遍标记特征合成与模式签名机制。
  • 提供一个面向实际使用的快速解压变体(DeLog-L)。
  • 在公开数据集和生产数据集上评估 DeLog,以基准化压缩比和速度。

提出的方法

  • 进行一次性扫描,构建动态特征池以捕捉内在标记结构和外部语义上下文。
  • 从选定的特征中合成模式签名,将标记按模式分组。
  • 用定制化技术对组进行编码以最大化压缩(如数值流的增量/弹性编码、字典编码等)。
  • 将相似编码的标记组合并为块并使用可插拔的一般用途压缩器进行归档。
  • 通过省略对 IP 地址和时间戳的正则匹配来提供 DeLog-L,以提升解压速度。
  • 描述一种并行在数据块上逆向解压的解压过程。

实验结果

研究问题

  • RQ1更高的日志解析准确性是否能保证更高的压缩比?
  • RQ2哪些标记属性和分组策略能带来最佳的压缩性能?
  • RQ3基于模式的分组是否能在现代生产日志上超越传统的以解析为中心的方法?
  • RQ4在公开数据和生产数据上,DeLog 在实现高压缩同时保持可接受速度方面有多有效?
  • RQ5快速解压变体(DeLog-L)对整体可用性有何影响?

主要发现

  • 更高的解析准确性在不同数据集上并不能可靠地与更好的压缩比相关联。
  • 压缩收益来自于创建同质、基于模式的流,而非仅凭解析准确性。
  • 动态特征池与模式签名合成使基于内在结构和外部上下文的有效分组成为可能。
  • 在 16 个公开数据集和 10 个生产数据集上,DeLog 实现了最先进的压缩比并且压缩速度优于基线。
  • DeLog-L 的解压吞吐量显著快于基线,与标准 DeLog 的压缩比相当。
  • DeLog/开源实现为研究者和从业者提供了实用工具。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。