[論文レビュー] LogFold: Compressing Logs with Structured Tokens and Hybrid Encoding
LogFoldは skeleton-aware 構造化トークン分析と型認識ハイブリッドエンコーディングパイプラインを導入し、ログを圧縮、16個の公開データセットで最先端ベースラインを上回る。
Logs are essential for diagnosing failures and conducting retrospective studies, leading many software organizations to retain log messages for a long time. Nevertheless, the volume of generated log data grows rapidly as software systems grow, necessitating an effective compression method. Apart from general-purpose compressors (e.g., Gzip, Bzip2), many recent studies developed log-specific compression algorithms, but they offer suboptimal performance because of (1) overlooking redundancies within certain complex tokens, and (2) lacking a fine-grained encoding strategy for diverse token types. This work uncovers a new redundancy pattern in structured tokens and proposes a new type-aware encoding strategy to improve log compression. Building on this insight, we introduce LogFold, a novel log compression method consisting of four components: a token analyzer to classifies tokens as structured, unstructured, or static types; a processor that mines recurring patterns within structured tokens based on their delimiter skeletons; a hybrid encoder that tailors data representation according to token types; and a packer that compresses the output into an archive file. Extensive experiments on 16 public log datasets demonstrate that LogFold surpasses state-of-the-art baselines, achieving average compression ratio improvements by 11.11%, with a compression speed of 9.842 MB/s. Ablation studies further indicate the importance of each component. We also conduct sensitivity analyses to verify LogFold's robustness and stability across various internal settings.
研究の動機と目的
- ログ内の構造化トークンの冗長性を識別して圧縮を改善する。
- 効率的なログ圧縮のための四部構成パイプライン(トークン分析器、構造化トークン処理器、ハイブリッドエンコーダ、パッカー)を提案する。
- 数値、文字列、混合タイプのトークンに合わせた型認識エンコーディング戦略を開発する。
- 多様な公開ログデータセットでLogFoldを評価し、最先端のログ圧縮ツールと一般目的圧縮ツールを比較する。
提案手法
- Token Analyzerは各ログエントリについてトークンを構造化、非構造化、静的のいずれかに分類する。
- Structured Token Processorは Delimiter Skeleton-aware Grouping と Pattern Mining を実行してトークン内の冗長性を抽出する。
- Hybrid Encoderは最適化された数値エンコーディング、辞書エンコーディング、トークンタイプに合わせた混合型エンコーディングを適用する。
- Packerは中間出力を集約し、一般目的の圧縮ツールを適用して最終アーカイブを生成する。
- Decompressorはパイプラインを逆流させてロスレス回復を保証する。

実験結果
リサーチクエスチョン
- RQ1RQ1: LogFoldはログ圧縮をどれだけ改善できるか。
- RQ2RQ2: さまざまなコンポーネントはLogFoldの有効性にどのように寄与するか。
- RQ3RQ3: LogFoldは内部パラメータ設定に対してどれだけ敏感か。
- RQ4RQ4: 異なる圧縮レベルを持つzipツール間でLogFoldはどの程度一般化可能か。
- RQ5RQ5: ログの復元時のLogFoldのパフォーマンスはどうか。
主な発見
- LogFoldは16個の公開データセットで最先端ベースラインと比較して平均圧縮比を11.11%改善。
- LogFoldの圧縮速度は9.842 MB/sである。
- LogFoldは評価データセット全体で9つのベースライン圤縮ツールを上回り、16データセットのうち12データセットで最良の圧縮を達成。
- アブレーション研究により各コンポーネント(トークン分析器、構造化トークン処理器、ハイブリッドエンコーダ、パッカー)の寄与を示す。
- 感度分析はLogFoldの内部設定に対する堅牢性と安定性を確認している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。