Skip to main content
QUICK REVIEW

[논문 리뷰] A Survey on Automated Log Analysis for Reliability Engineering

Shilin He, Pinjia He|arXiv (Cornell University)|2020. 09. 15.
Software System Performance and Reliability참고 문헌 171인용 수 35
한 줄 요약

신뢰성 공학을 위한 자동 로그 분석에 대한 포괄적 조사로, 로깅 실무, 로그 압축, 로그 파싱, 로그 마이닝, 데이터셋, 도구 키트, 향후 방향을 다룬다.

ABSTRACT

Logs are semi-structured text generated by logging statements in software source code. In recent decades, software logs have become imperative in the reliability assurance mechanism of many software systems because they are often the only data available that record software runtime information. As modern software is evolving into a large scale, the volume of logs has increased rapidly. To enable effective and efficient usage of modern software logs in reliability engineering, a number of studies have been conducted on automated log analysis. This survey presents a detailed overview of automated log analysis research, including how to automate and assist the writing of logging statements, how to compress logs, how to parse logs into structured event templates, and how to employ logs to detect anomalies, predict failures, and facilitate diagnosis. Additionally, we survey work that releases open-source toolkits and datasets. Based on the discussion of the recent advances, we present several promising future directions toward real-world and next-generation automated log analysis.

연구 동기 및 목표

  • 소프트웨어 신뢰성 연구의 동기를 제시하고 런타임 데이터로서 로그의 결정적 역할을 강조한다.
  • 로깅, 압축, 파싱, 마이닝 및 경험적 연구를 포괄하는 158편의 논문(1997–2020)을 종합한다.
  • 오픈 소스 도구 키트와 데이터셋을 조명하고 실용적 과제와 산업 현장을 식별한다.

제안 방법

  • 로그 및 신뢰성과 관련된 표적 키워드를 사용해 상위 학술지에서 체계적으로 문헌을 수집했다.
  • 조사된 연구를 다섯 가지 초점 영역으로 분류했다: 로깅, 로그 압축, 로그 파싱, 로그 마이닝, 경험적 연구.
  • 동향, 오픈 소스 자원 및 실용적 과제 분석해 최첨단 연구와 격차를 도식화했다.

실험 결과

연구 질문

  • RQ1신뢰성 공학을 위한 자동 로그 분석의 주요 연구 방향은 무엇인가?
  • RQ2각 방향에서 어떤 기법들(정적 분석, 머신 러닝, 경험적 연구)이 우위를 차지하는가?
  • RQ3실무자와 연구자들이 이용할 수 있는 오픈 소스 도구와 데이터셋은 무엇인가?
  • RQ4로깅 및 로그 분석의 실제 배치 문제를 다루는 향후 방향은 무엇인가?

주요 결과

  • 로그 마이닝은 이상 탐지, 고장 예측, 진단 등의 분해된 하위 작업으로 인해 가장 큰 연구 비중을 차지한다.
  • 로깅 실무 및 유지 관리가 활발히 연구되었으며, 어디에 로깅할지, 무엇을 로깅할지, 어떻게 로깅할지 등을 다루며 진단 가능성, 성능, 유지 관리성에 주의를 기울인다.
  • 다양한 로그 압축 방식이 존재한다(버킷 기반, 사전 기반, 통계 기반). 각각 일반성, 확장성, 휴리스틱에서 트레이드오프가 있다.
  • 연구와 실천을 지원하기 위해 여러 도구와 데이터셋이 공개되어 재현성과 산업적 평가를 가능하게 한다.
  • 학계의 발전과 실제 현장 배포 간의 격차가 존재하며, 향후 방향은 실제 적용성 및 차세대 로그 분석을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.