Skip to main content
QUICK REVIEW

[논문 리뷰] Survey on Models and Techniques for Root-Cause Analysis

Marc Solé, Víctor Muntés-Mulero|arXiv (Cornell University)|2017. 01. 30.
Software System Performance and Reliability참고 문헌 168인용 수 80
한 줄 요약

이 설문은 루트 원인 분석 모델과 학습/추론 기술을 검토하며, IoT/클라우드에서 IT 시스템의 성능과 확장성에 중점을 두고 RCA 전략 선택에 대한 지침을 제공합니다.

ABSTRACT

Automation and computer intelligence to support complex human decisions becomes essential to manage large and distributed systems in the Cloud and IoT era. Understanding the root cause of an observed symptom in a complex system has been a major problem for decades. As industry dives into the IoT world and the amount of data generated per year grows at an amazing speed, an important question is how to find appropriate mechanisms to determine root causes that can handle huge amounts of data or may provide valuable feedback in real-time. While many survey papers aim at summarizing the landscape of techniques for modelling system behavior and infering the root cause of a problem based in the resulting models, none of those focuses on analyzing how the different techniques in the literature fit growing requirements in terms of performance and scalability. In this survey, we provide a review of root-cause analysis, focusing on these particular aspects. We also provide guidance to choose the best root-cause analysis strategy depending on the requirements of a particular system and application.

연구 동기 및 목표

  • IoT/클라우드 시대와 대규모 분산 시스템에서 고급 루트 원인 분석의 필요성을 촉구한다.
  • RCA 모델(결정론적 대 확률론적)을 분류하고 비교하며 학습/추론 방식.
  • 도메인 지식, 시스템 지식, 관측으로 구성된 모델 생성이 성능과 확장성에 미치는 영향을 분석한다.
  • 시스템 요구사항(실시간 대 포스트모트, 데이터 크기, 업데이트)에 따라 RCA 전략을 선택하기 위한 지침을 제공한다.
  • 수동, 보조 및 데이터 기반 모델 구성 간의 트레이드오프를 논의한다.

제안 방법

  • RCA 모델을 결정론적 계열과 확률적 계열로 분류하고 하위 유형을 매핑한다(예: 로직, 베이지안 네트워크, 오토마타, 페트리 넷).
  • 모델이 얻어지는 방법을 설명한다: 전문가 주도, 부분모델로부터의 보조 생성, 또는 완전한 데이터 기반 학습.
  • 모델 계열에 걸친 자동 모델 구성에 대한 학습 알고리즘을 검토한다(표 II 참조).
  • 추론/추론-유도 기법과 서로 다른 출력(근본 원인, 설명)이 어떻게 생성되는지 설명한다(표 III/IV 참조).
  • 시스템 지식의 변화에 따른 모델 업데이트 및 처리 방법을 논의한다. 점진적 업데이트 대 전체 재구성을 포함.
  • 성능, 확장성 및 실시간 대 포스트모트 진단에 대한 시사점을 강조한다.

실험 결과

연구 질문

  • RQ1대규모 IT/IoT/클라우드 시스템에서 성능 및 확장성 요구를 가장 잘 충족하는 RCA 모델과 학습 기법은 무엇인가?
  • RQ2도메인 지식, 시스템 토폴로지 및 관찰 데이터로부터 RCA 모델을 생성하는 방법과 그 트레이드오프는 무엇인가?
  • RQ3실시간 제약 하에서 유용한 설명과 허용 가능한 지연을 제공하는 추론 전략은 무엇인가?
  • RQ4모델 구조와 추론 길이가 확장성과 진단 정확도에 어떤 영향을 미치는가?

주요 결과

  • RCA 모델은 결정론적 계열과 확률론적 계열에 걸쳐 있으며, 다양한 하위 유형이 속도, 정확도 및 해석 가능성 사이의 서로 다른 트레이드오프를 제공합니다.
  • 모델 생성은 전문가 주도, 보조(부분적으로 지식 기반), 또는 완전한 데이터 기반일 수 있으며 정확도와 업데이트 효율성에 영향을 미친다.
  • 추론 기법은 정확한 결과를 제공하는지 아니면 언제든지/근사치 답을 제공하는지에 따라 다르며 실시간 진단 적합도에 영향을 미친다.
  • 컴파일링과 산술 회로 표현은 오프라인 모델 구성 노력의 대가로 진단 속도를 높일 수 있다.
  • 학습 알고리즘은 복잡성과 확장성에서 다양하며, 일부 방법은 진화하는 시스템에 대처하기 위해 점진적 업데이트를 가능하게 한다.
  • 이 설문은 관찰 데이터 규모, 구성 요소 수 및 업데이트 역학과 같은 시스템 요구사항에 따라 RCA 전략을 선택하는 지침을 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.