QUICK REVIEW

[論文レビュー] Survey on Models and Techniques for Root-Cause Analysis

Marc Solé, Víctor Muntés-Mulero|arXiv (Cornell University)|Jan 30, 2017

Software System Performance and Reliability参考文献 168被引用数 80

ひとこと要約

本調査は、ルート原因分析モデルと学習/推論手法をレビューし、IoT/クラウドにおけるITシステムの性能とスケーラビリティに焦点を当て、RCA戦略の選択に関する指針を提供します。

ABSTRACT

Automation and computer intelligence to support complex human decisions becomes essential to manage large and distributed systems in the Cloud and IoT era. Understanding the root cause of an observed symptom in a complex system has been a major problem for decades. As industry dives into the IoT world and the amount of data generated per year grows at an amazing speed, an important question is how to find appropriate mechanisms to determine root causes that can handle huge amounts of data or may provide valuable feedback in real-time. While many survey papers aim at summarizing the landscape of techniques for modelling system behavior and infering the root cause of a problem based in the resulting models, none of those focuses on analyzing how the different techniques in the literature fit growing requirements in terms of performance and scalability. In this survey, we provide a review of root-cause analysis, focusing on these particular aspects. We also provide guidance to choose the best root-cause analysis strategy depending on the requirements of a particular system and application.

研究の動機と目的

IoT/クラウド時代と大規模分散システムにおける高度なルート原因分析の必要性を喚起する。
決定論的と確率的のRCAモデルと、それらの学習/推論アプローチを分類・比較する。
モデル生成（ドメイン知識、システム知識、観測データ）が性能とスケーラビリティに与える影響を分析する。
システム要件（リアルタイム対ポストモーテム、データ量、更新頻度）に基づくRCA戦略の選択指針を提供する。
手動・支援型・データ駆動型のモデル構築のトレードオフを論じる。

提案手法

RCAモデルを決定論的系と確率論的系に分類し、サブタイプを対応づける（例：論理、ベイジアンネットワーク、オートマタ、ペトリネットなど）。
モデル取得方法を説明する：専門家主導、サブモデルからの支援生成、または完全なデータ駆動学習。
モデルファミリ全体にわたる自動モデル構築の学習アルゴリズムをレビューする（Table II参照）。
推論／アブダクション技術を説明し、異なる出力（根本原因、説明）がどのように生成されるかを示す（Tables III/IV参照）。
モデル更新とシステム知識の変化への対応を論じる。漸進的更新と完全再構成を含む。
性能・スケーラビリティ、およびリアルタイム対ポストモーテム診断への影響を強調する。

実験結果

リサーチクエスチョン

RQ1大規模IT/IoT/クラウドシステムのニーズに最適なRCAモデルと学習技術は何か？
RQ2ドメイン知識、システムトポロジー、観測データからRCAモデルを生成するにはどうすればよく、どのようなトレードオフがあるか？
RQ3リアルタイムの制約下で有用な説明と許容遅延をもたらす推論戦略は何か？
RQ4モデル構造と推論長さはスケーラビリティと診断精度にどのような影響を及ぼすか？

主な発見

RCAモデルは決定論的および確率論的ファミリにまたがり、さまざまなサブタイプが速度、精度、解釈性の間で異なるトレードオフを提供する。
モデル生成は専門家主導、支援型（部分的な知識ベース）、または完全にデータ駆動であり、精度と更新効率に影響を与える。
推論手法は正確な結果を提供するものと、いつでも/近似解を提供するものとで異なり、リアルタイム診断への適合性に影響する。
コンパイルと算術回路表現はオフラインのモデル構築コストと引き換えに診断を高速化できる。
モデル構築の学習アルゴリズムは複雑さとスケーラビリティの点で多様で、進化するシステムに対応する漸進的更新を可能にする方法もある。
この調査は、観測データ量、部品数、更新ダイナミクスなどのシステム要件に基づくRCA戦略の選択指針を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。