Skip to main content
QUICK REVIEW

[論文レビュー] LogFold: Compressing Logs with Structured Tokens and Hybrid Encoding

Shiwen Shan, Yintong Huo|arXiv (Cornell University)|Mar 21, 2026
Software System Performance and Reliability被引用数 0
ひとこと要約

LogFoldは skeleton-aware 構造化トークン分析と型認識ハイブリッドエンコーディングパイプラインを導入し、ログを圧縮、16個の公開データセットで最先端ベースラインを上回る。

ABSTRACT

Logs are essential for diagnosing failures and conducting retrospective studies, leading many software organizations to retain log messages for a long time. Nevertheless, the volume of generated log data grows rapidly as software systems grow, necessitating an effective compression method. Apart from general-purpose compressors (e.g., Gzip, Bzip2), many recent studies developed log-specific compression algorithms, but they offer suboptimal performance because of (1) overlooking redundancies within certain complex tokens, and (2) lacking a fine-grained encoding strategy for diverse token types. This work uncovers a new redundancy pattern in structured tokens and proposes a new type-aware encoding strategy to improve log compression. Building on this insight, we introduce LogFold, a novel log compression method consisting of four components: a token analyzer to classifies tokens as structured, unstructured, or static types; a processor that mines recurring patterns within structured tokens based on their delimiter skeletons; a hybrid encoder that tailors data representation according to token types; and a packer that compresses the output into an archive file. Extensive experiments on 16 public log datasets demonstrate that LogFold surpasses state-of-the-art baselines, achieving average compression ratio improvements by 11.11%, with a compression speed of 9.842 MB/s. Ablation studies further indicate the importance of each component. We also conduct sensitivity analyses to verify LogFold's robustness and stability across various internal settings.

研究の動機と目的

  • ログ内の構造化トークンの冗長性を識別して圧縮を改善する。
  • 効率的なログ圧縮のための四部構成パイプライン(トークン分析器、構造化トークン処理器、ハイブリッドエンコーダ、パッカー)を提案する。
  • 数値、文字列、混合タイプのトークンに合わせた型認識エンコーディング戦略を開発する。
  • 多様な公開ログデータセットでLogFoldを評価し、最先端のログ圧縮ツールと一般目的圧縮ツールを比較する。

提案手法

  • Token Analyzerは各ログエントリについてトークンを構造化、非構造化、静的のいずれかに分類する。
  • Structured Token Processorは Delimiter Skeleton-aware Grouping と Pattern Mining を実行してトークン内の冗長性を抽出する。
  • Hybrid Encoderは最適化された数値エンコーディング、辞書エンコーディング、トークンタイプに合わせた混合型エンコーディングを適用する。
  • Packerは中間出力を集約し、一般目的の圧縮ツールを適用して最終アーカイブを生成する。
  • Decompressorはパイプラインを逆流させてロスレス回復を保証する。
Figure 1. The general log compressor paradigm.
Figure 1. The general log compressor paradigm.

実験結果

リサーチクエスチョン

  • RQ1RQ1: LogFoldはログ圧縮をどれだけ改善できるか。
  • RQ2RQ2: さまざまなコンポーネントはLogFoldの有効性にどのように寄与するか。
  • RQ3RQ3: LogFoldは内部パラメータ設定に対してどれだけ敏感か。
  • RQ4RQ4: 異なる圧縮レベルを持つzipツール間でLogFoldはどの程度一般化可能か。
  • RQ5RQ5: ログの復元時のLogFoldのパフォーマンスはどうか。

主な発見

  • LogFoldは16個の公開データセットで最先端ベースラインと比較して平均圧縮比を11.11%改善。
  • LogFoldの圧縮速度は9.842 MB/sである。
  • LogFoldは評価データセット全体で9つのベースライン圤縮ツールを上回り、16データセットのうち12データセットで最良の圧縮を達成。
  • アブレーション研究により各コンポーネント(トークン分析器、構造化トークン処理器、ハイブリッドエンコーダ、パッカー)の寄与を示す。
  • 感度分析はLogFoldの内部設定に対する堅牢性と安定性を確認している。
Figure 2. Examples of structured tokens.
Figure 2. Examples of structured tokens.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。