Skip to main content
QUICK REVIEW

[論文レビュー] DeLog: An Efficient Log Compression Framework with Pattern Signature Synthesis

Siyu Yu, Yifan Wu|arXiv (Cornell University)|Jan 21, 2026
Software System Performance and Reliability被引用数 0
ひとこと要約

DeLogは解析精度と圧縮率との関係と仮定を疑問視し、単一パスのパターン署名合成を導入して同質で圧縮可能なトークン群を形成し、公開データセットと実運用ログで最先端の結果を達成します。

ABSTRACT

Parser-based log compression, which separates static templates from dynamic variables, is a promising approach to exploit the unique structure of log data. However, its performance on complex production logs is often unsatisfactory. This performance gap coincides with a known degradation in the accuracy of its core log parsing component on such data, motivating our investigation into a foundational yet unverified question: does higher parsing accuracy necessarily lead to better compression ratio? To answer this, we conduct the first empirical study quantifying this relationship and find that a higher parsing accuracy does not guarantee a better compression ratio. Instead, our findings reveal that compression ratio is dictated by achieving effective pattern-based grouping and encoding, i.e., the partitioning of tokens into low entropy, highly compressible groups. Guided by this insight, we design DeLog, a novel log compressor that implements a Pattern Signature Synthesis mechanism to achieve efficient pattern-based grouping. On 16 public and 10 production datasets, DeLog achieves state-of-the-art compression ratio and speed.

研究の動機と目的

  • より高いログ解析精度が圧縮率を改善するかの検討。
  • 解析精度よりもパターンベースのグルーピングを優先する圧縮フレームワークの開発。
  • 単一パスのトークン特徴合成とパターン署名機構の設計。
  • 実用的な使用のための高速デコード重視の Variant(DeLog-L)の提供。
  • 公開データセットと実運用データセットでDeLogを評価し、圧縮率と速度をベンチマーク。

提案手法

  • intrinsic token structureと外部意味_CONTEXTを捉えるDynamic Feature Poolを構築するワンパススキャンを実行。
  • 選択された特徴からPattern Signaturesを合成し、トークンをパターンベースのグループに分類。
  • 圧縮を最大化するためにグループを適切な手法でエンコード(数値ストリームにはデルタ/エラスティック、英数字には辞書型等)。
  • 類似のエンコードトークン群をブロックに統合し、プラグ可能な汎用圧縮機でアーカイブ。
  • IPアドレスとタイムスタンプの正規表現マッチを省略してDeLog-Lを提供し、デコード速度を向上。
  • デコード処理をデータチャンクごとに並列で圧縮を逆に進めるプロセスを記述。

実験結果

リサーチクエスチョン

  • RQ1より高いログ解析精度が確実に高い圧縮率を保証するか?
  • RQ2どのトークン特性とグルーピング戦略が最良の圧縮性能を生むか?
  • RQ3パターンベースのグルーピングは現代の実運用ログに対して従来の解析中心アプローチより優れているか?
  • RQ4公開データと実運用データでDeLogは高い圧縮と許容できる速度を達成できるか?
  • RQ5高速デコードバリアント(DeLog-L)の全体的な使いやすさへの影響は?

主な発見

  • より高い解析精度がデータセット全体で必ずしも圧縮率の改善と相関しない。
  • 圧縮の利点は解析精度だけでなく、同質でパターンベースのストリームを作成することから生じる。
  • Dynamic Feature PoolとPattern Signature SynthesisはIntrinsicな構造と外部コンテキストに基づく効果的なグルーピングを可能にする。
  • 16の公開データセットと10の実運用データセットで、DeLogはベースラインよりも最先端の圧縮比と高速な圧縮速度を達成。
  • DeLog-Lはデコードスループットをベースラインよりも大幅に高速化し、標準のDeLogと同等の圧縮比を維持。
  • DeLogの公開・オープンソース実装は研究者と実務家に実用的なツールを提供。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。