[論文レビュー] DeLog: An Efficient Log Compression Framework with Pattern Signature Synthesis
DeLogは解析精度と圧縮率との関係と仮定を疑問視し、単一パスのパターン署名合成を導入して同質で圧縮可能なトークン群を形成し、公開データセットと実運用ログで最先端の結果を達成します。
Parser-based log compression, which separates static templates from dynamic variables, is a promising approach to exploit the unique structure of log data. However, its performance on complex production logs is often unsatisfactory. This performance gap coincides with a known degradation in the accuracy of its core log parsing component on such data, motivating our investigation into a foundational yet unverified question: does higher parsing accuracy necessarily lead to better compression ratio? To answer this, we conduct the first empirical study quantifying this relationship and find that a higher parsing accuracy does not guarantee a better compression ratio. Instead, our findings reveal that compression ratio is dictated by achieving effective pattern-based grouping and encoding, i.e., the partitioning of tokens into low entropy, highly compressible groups. Guided by this insight, we design DeLog, a novel log compressor that implements a Pattern Signature Synthesis mechanism to achieve efficient pattern-based grouping. On 16 public and 10 production datasets, DeLog achieves state-of-the-art compression ratio and speed.
研究の動機と目的
- より高いログ解析精度が圧縮率を改善するかの検討。
- 解析精度よりもパターンベースのグルーピングを優先する圧縮フレームワークの開発。
- 単一パスのトークン特徴合成とパターン署名機構の設計。
- 実用的な使用のための高速デコード重視の Variant(DeLog-L)の提供。
- 公開データセットと実運用データセットでDeLogを評価し、圧縮率と速度をベンチマーク。
提案手法
- intrinsic token structureと外部意味_CONTEXTを捉えるDynamic Feature Poolを構築するワンパススキャンを実行。
- 選択された特徴からPattern Signaturesを合成し、トークンをパターンベースのグループに分類。
- 圧縮を最大化するためにグループを適切な手法でエンコード(数値ストリームにはデルタ/エラスティック、英数字には辞書型等)。
- 類似のエンコードトークン群をブロックに統合し、プラグ可能な汎用圧縮機でアーカイブ。
- IPアドレスとタイムスタンプの正規表現マッチを省略してDeLog-Lを提供し、デコード速度を向上。
- デコード処理をデータチャンクごとに並列で圧縮を逆に進めるプロセスを記述。
実験結果
リサーチクエスチョン
- RQ1より高いログ解析精度が確実に高い圧縮率を保証するか?
- RQ2どのトークン特性とグルーピング戦略が最良の圧縮性能を生むか?
- RQ3パターンベースのグルーピングは現代の実運用ログに対して従来の解析中心アプローチより優れているか?
- RQ4公開データと実運用データでDeLogは高い圧縮と許容できる速度を達成できるか?
- RQ5高速デコードバリアント(DeLog-L)の全体的な使いやすさへの影響は?
主な発見
- より高い解析精度がデータセット全体で必ずしも圧縮率の改善と相関しない。
- 圧縮の利点は解析精度だけでなく、同質でパターンベースのストリームを作成することから生じる。
- Dynamic Feature PoolとPattern Signature SynthesisはIntrinsicな構造と外部コンテキストに基づく効果的なグルーピングを可能にする。
- 16の公開データセットと10の実運用データセットで、DeLogはベースラインよりも最先端の圧縮比と高速な圧縮速度を達成。
- DeLog-Lはデコードスループットをベースラインよりも大幅に高速化し、標準のDeLogと同等の圧縮比を維持。
- DeLogの公開・オープンソース実装は研究者と実務家に実用的なツールを提供。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。