Skip to main content
QUICK REVIEW

[論文レビュー] A Directed Acyclic Graph Approach to Online Log Parsing

Pinjia He, Jieming Zhu|arXiv (Cornell University)|Jun 12, 2018
Software System Performance and Reliability参考文献 18被引用数 23
ひとこと要約

本論文では、手動によるパrameter調整を必要とせず、自動的に初期化され、動的に更新されるパーサルールを備えた有向無閉路グラフ(DAG)に基づくオンラインログパーサーであるDrainを提案する。11個の実世界のログデータセットにおいて、既存のオンラインパーサーよりも最大97.14%高速であり、最先端の精度を達成している。

ABSTRACT

Logs are widely used in modern software system management because they are often the only data accessible that record system events at runtime. In recent years, because of the ever-increasing log size, data mining techniques are often utilized to help developers and operators conduct system reliability management. A typical log-based system reliability management procedure is to first parse log messages because of their unstructured format; and apply data mining techniques on the parsed logs to obtain critical system behavior information. Most of existing research studies focus on offline log parsing, which need to parse logs in batch mode. However, software systems, especially distributed systems, require online monitoring and maintenance. Thus, a log parser that can parse log messages in a streaming manner is highly in demand. To address this problem, we propose an online log parsing method, namely Drain, based on directed acyclic graph, which encodes specially designed rules for parsing. Drain can automatically generate a directed acyclic graph for a new system and update the graph according to the incoming log messages. Besides, Drain frees developers from the burden of parameter tuning by allowing them use Drain with no pre-defined parameters. To evaluate the performance of Drain, we collect 11 log datasets generated by real-world systems, ranging from distributed systems, Web applications, supercomputers, operating systems, to standalone software. The experimental results show that Drain has the highest accuracy on all 11 datasets. Moreover, Drain obtains 37.15\%$\sim$ 97.14\% improvement in the running time over the state-of-the-art online parsers. We also conduct a case study on a log-based anomaly detection task using Drain in the parsing step, which determines its effectiveness in system reliability management.

研究の動機と目的

  • リアルタイムのシステム監視におけるオフラインログパーサーの限界を克服すること、特に大規模分散システムにおいて。
  • 手動によるパrameter調整を排除し、自動的初期化と動的ルール更新を可能にする。
  • 高い精度を維持しながら、大幅に効率的なパーサーを実現するオンラインログパーサーの開発。
  • 分散システム、Webアプリケーション、スーパーコンピュータを含む多様な実世界システムにおけるパーサーの性能を評価すること。
  • 異常検出を含むエンドツーエンドのシステム信頼性タスクにおいて、パーサーの有効性を示すこと。

提案手法

  • Drainは、ログメッセージのパーサルールをエンコードするための有向無閉路グラフ(DAG)を構築し、ストリーミングログにおける効率的なパターンマッチングを可能にする。
  • パーサーは、到着するログメッセージの統計的特性に基づいて、DAG構造を自動的に初期化し、事前定義されたパrameterの必要性を排除する。
  • 新しいログメッセージが到着するたびにDAGを動的に更新することで、再トレーニングを再開することなく、変化するログパターンに適応できる。
  • DAG構造により、ログテンプレートを階層的・ルールベースに整理することで、比較のオーバーヘッドを低減し、ロググループ検索を高速化する。
  • Drainは、高スループットのストリーミング環境下でもパーサーの正確性を保つことを重視した、類似度に基づくマッチング戦略を用いる。
  • メモリ効率が良くスケーラブルな設計となっており、大規模でリアルタイムの監視パイプラインへの導入に適している。

実験結果

リサーチクエスチョン

  • RQ1手動によるパrameter調整を必要とせずに、オンラインログパーサーが高精度を達成できるか。
  • RQ2DAGに基づくオンラインログパーサーの性能は、既存の最先端のオンラインおよびオフラインパーサーと比較して、精度と速度の面でどのように差がつくか。
  • RQ3提案されたパーサーは、異常検出を含む下流のシステム信頼性タスクを、前処理ステップとして効果的に支援できるか。
  • RQ4多様な実世界システム、特に異なるログフォーマットとボリュームを持つシステムにおいて、パーサーの汎用性はどの程度高いか。
  • RQ5自動ルール初期化および動的更新メカニズムが、パーサーの効率性と正確性に与える影響は何か。

主な発見

  • Drainは、分散システム、Webアプリケーション、スーパーコンピュータ、オペレーティングシステム、スタンドアロンソフトウェアから収集した11個の実世界ログデータセットすべてで、最高のパーサー精度を達成した。
  • Drainは、最先端のオンラインログパーサーと比較して、パーサー速度を37.15%から97.14%まで向上させ、顕著な効率性の向上を示した。
  • パーサーは手動によるパrameter調整を一切必要とせず、到着するログストリームに基づいて自動的にルールを初期化および更新した。
  • 事例研究において、Drainは効果的なログベースの異常検出を実現し、実システムの信頼性管理における実用性を確認した。
  • DAGベースの構造により、効率的なロググループ検索とスケーラブルなパーサー処理が可能となり、ツリー基準およびクラスタリング基準のアプローチを上回るスピードと正確性を達成した。
  • ソースコードおよびすべての11個のデータセットは、再現可能性および今後の研究を支援するため、公開された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。