Skip to main content
QUICK REVIEW

[논문 리뷰] Loghub: A Large Collection of System Log Datasets for AI-driven Log Analytics

Jieming Zhu, Shilin He|arXiv (Cornell University)|2020. 08. 14.
Software System Performance and Reliability참고 문헌 51인용 수 46
한 줄 요약

Loghub은 AI 주도 로그 분석 벤치마킹을 가능하게 하는 19개의 실세계 시스템 로그 데이터 세트(약 77 GB)를 공개하고, 로그 파싱, 압축, 이상 탐지에 대한 초기 벤치마크를 제공합니다.

ABSTRACT

Logs have been widely adopted in software system development and maintenance because of the rich runtime information they record. In recent years, the increase of software size and complexity leads to the rapid growth of the volume of logs. To handle these large volumes of logs efficiently and effectively, a line of research focuses on developing intelligent and automated log analysis techniques. However, only a few of these techniques have reached successful deployments in industry due to the lack of public log datasets and open benchmarking upon them. To fill this significant gap and facilitate more research on AI-driven log analytics, we have collected and released loghub, a large collection of system log datasets. In particular, loghub provides 19 real-world log datasets collected from a wide range of software systems, including distributed systems, supercomputers, operating systems, mobile systems, server applications, and standalone software. In this paper, we summarize the statistics of these datasets, introduce some practical usage scenarios of the loghub datasets, and present our benchmarking results on loghub to benefit the researchers and practitioners in this field. Up to the time of this paper writing, the loghub datasets have been downloaded for roughly 90,000 times in total by hundreds of organizations from both industry and academia. The loghub datasets are available at https://github.com/logpai/loghub.

연구 동기 및 목표

  • AI 주도 분석을 위한 실세계 시스템 로그 데이터의 방대하고 다양한 수집 및 조직.
  • 이상 탐지, 파싱 및 기타 로그 분석 작업을 지원하기 위해 라벨이 부여된 데이터세트와 라벨이 없는 데이터세트를 제공한다.
  • 실용적 사용 시나리오를 설명하고 연구와 산업 간의 다리를 놓기 위한 벤치마크를 확립한다.
  • 재현 가능한 연구 및 산업 도입을 가능하게 하도록 데이터세트를 공개한다.

제안 방법

  • 분산 시스템, 슈퍼컴퓨터, 운영 체제, 모바일 시스템, 서버 애플리케이션 및 독립 소프트웨어에서 총 ~77 GB에 이르는 19개의 로그 데이터 세트를 수집한다.
  • 각 데이터세트를 시간 범위, 행 수, 크기, 라벨로 특징짓고 라벨이 있는지 없는지로 분류한다.
  • 실용적 사용 시나리오(예: 이상 탐지, 로그 파싱, 로그 압축, 중복 이슈 등)와 각 작업에 로그를 활용하는 방법을 논의한다.
  • 표준 지표를 사용한 대표 작업(로그 파싱, 압축, 이상 탐지)에 대한 기본 벤치마크를 제공하고 남은 과제를 분석한다.
  • 데이터세트는 GitHub에서 공개되어 커뮤니티 접근성과 재현성을 가능하게 한다.
  • 로그 파서를 평가하기 위해 PA = (# correctly parsed logs) / (total logs)로 정의된 파싱 정확도 PA metric을 사용한다.

실험 결과

연구 질문

  • RQ1다양한 로그 소스와 구조에 걸쳐 기존 로그 파싱 방법의 일반화 가능성은 어느 정도인가?
  • RQ2실세계 로그에서 로그 전용 압축 도구가 일반 목적 압축기와 비교하여 효과가 어느 정도인가?
  • RQ3대형이고 이질적인 실세계 로그 집합에서 로그 기반 이상 탐지 방법의 성능은 어떠한가?
  • RQ4다양한 시스템과 워크로드로 확장할 때 AI 주도 로그 분석의 실용적 도전 과제는 무엇이 남아 있는가?
  • RQ5Loghub가 연구에서 산업 채택으로의 진전을 이끄는 포괄적 벤치마크가 될 수 있는가?

주요 결과

  • 적어도 하나의 파서는 대부분의 데이터세트에서 90% 이상의 파싱 정확도를 달성하며, 더 간단한 이벤트 템플릿으로 인해 일부 데이터세트는 완벽한 정확도에 도달한다.
  • Drain이 평가된 파서들 중 데이터세트에 대해 가장 높은 평균 파싱 정확도를 제공한다.
  • 로그 전용 압축(Logzip 등 다양한 커널)은 모든 테스트 데이터세트에서 일반 압축기보다 우수하며, gzip 대비 평균 4.56배, 일부 경우 최대 15.1배의 이점을 보인다.
  • 6개 데이터세트는 라벨이 부여되어(이상 탐지 및 중복 이슈 연구 지원), 13개는 라벨이 없으며 감독학습에서 비감독학습에 이르는 다양한 작업이 가능하다.
  • 이상 탐지 벤치마크에서 감독학습 방법(예: 의사결정 트리, SVM)이 라벨 데이터로 인해 높은 재현율/정밀도를 달성하는 반면, 비감독학습 방법은 라벨 부재 시에도 경쟁력 있는 결과를 제공한다.
  • 데이터세트는 산업계 및 학계의 450개 이상 조직이 90,000건이 넘는 다운로드를 기록하며 광범위하게 채택되었고, 교육 및 연구에 점점 더 활용되고 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.