Skip to main content
QUICK REVIEW

[論文レビュー] Loghub: A Large Collection of System Log Datasets for AI-driven Log Analytics

Jieming Zhu, Shilin He|arXiv (Cornell University)|Aug 14, 2020
Software System Performance and Reliability参考文献 51被引用数 46
ひとこと要約

Loghub は実世界のシステムログデータセットを19件公開(約77 GB)し、AI駆動のログ分析のベンチマークを可能にするとともに、ログ解析、圧縮、異常検知の初期ベンチマークを提供します。

ABSTRACT

Logs have been widely adopted in software system development and maintenance because of the rich runtime information they record. In recent years, the increase of software size and complexity leads to the rapid growth of the volume of logs. To handle these large volumes of logs efficiently and effectively, a line of research focuses on developing intelligent and automated log analysis techniques. However, only a few of these techniques have reached successful deployments in industry due to the lack of public log datasets and open benchmarking upon them. To fill this significant gap and facilitate more research on AI-driven log analytics, we have collected and released loghub, a large collection of system log datasets. In particular, loghub provides 19 real-world log datasets collected from a wide range of software systems, including distributed systems, supercomputers, operating systems, mobile systems, server applications, and standalone software. In this paper, we summarize the statistics of these datasets, introduce some practical usage scenarios of the loghub datasets, and present our benchmarking results on loghub to benefit the researchers and practitioners in this field. Up to the time of this paper writing, the loghub datasets have been downloaded for roughly 90,000 times in total by hundreds of organizations from both industry and academia. The loghub datasets are available at https://github.com/logpai/loghub.

研究の動機と目的

  • AI駆動の分析のために、実世界のシステムログデータセットを大規模で多様なコレクションとして収集・整理する。
  • 異常検知、パース、その他のログ分析タスクを支援するために、ラベル付きデータセットとラベルなしデータセットを提供する。
  • 実用的な使用シナリオを記述し、研究と産業の橋渡しとなるベンチマークを確立する。
  • データセットを公開して再現性のある研究と産業界での普及を可能にする。

提案手法

  • 分散システム、スーパーコンピュータ、オペレーティングシステム、モバイルシステム、サーバーアプリケーション、スタンドアロンソフトウェアなどから19個のログデータセットを収集し、総計約77 GB。
  • 各データセットの特徴(時間範囲、行数、サイズ、ラベル)を特性化し、ラベル付きまたはラベルなしとして分類する。
  • 実用的な使用シナリオ(例:異常検知、ログ解析、ログ圧縮、重複問題)を議論し、それぞれのタスクに対してログがどのように利用できるかを説明する。
  • 代表的なタスク(ログ解析、圧縮、異常検知)に基準ベンチマーキングを標準的な指標で提供し、残る課題を分析する。
  • データセットはGitHubで公開され、コミュニティのアクセスと再現性を可能にする。
  • parsing-accuracy PA metric を用いて、PA = (# correctly parsed logs) / (total logs) と定義してログパーサを評価する。

実験結果

リサーチクエスチョン

  • RQ1既存のログパーシング手法は、多様なログソースや構造に対してどの程度一般化可能ですか?
  • RQ2実世界のログに対して、ログ特化の圧縮ツールは汎用圧縮ツールと比べてどの程度効果的ですか?
  • RQ3大規模で異種混在な実世界ログの集合に対して、ログベースの異常検知手法はどのように性能を発揮しますか?
  • RQ4多様なシステムとワークロードへ拡張する際に、AI駆動のログ分析で残る実用的な課題は何ですか?
  • RQ5Loghub は研究から産業導入へ進展を促す総合的なベンチマークとして機能しますか?

主な発見

  • 少なくとも1つのパーサはほとんどのデータセットで90%超のパース精度を達成し、イベントテンプレートが単純なデータセットでは完璧な精度に達するものもある。
  • Drain は評価対象のパーサの中でデータセット全体の平均パース精度が最も高い。
  • ログ特化の圧縮(例:様々なカーネルを用いた Logzip)は、全テストデータセットで汎用圧縮より優れており、gzipに対して平均4.56x、場合によっては最大15.1xの利得をもたらす。
  • 6データセットはラベル付きで、異常検知と重複問題の研究を支援し、13はラベルなしで、監督付きから教師なし分析までの幅広いタスクを可能にする。
  • 異常検知のベンチマークでは、ラベル付きデータのため、決定木やSVMなどの教師ありアプローチが高いリコール/精度を達成し、ラベルがない場合には教師なし手法も競争力のある結果を示す。
  • データセットは広く利用されており、業界と学術界の450超の組織によって9万回以上ダウンロードされ、教育・研究にもますます活用されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。