Skip to main content
QUICK REVIEW

[논문 리뷰] A Directed Acyclic Graph Approach to Online Log Parsing

Pinjia He, Jieming Zhu|arXiv (Cornell University)|2018. 06. 12.
Software System Performance and Reliability참고 문헌 18인용 수 23
한 줄 요약

이 논문은 수동 파rameter 조정 없이 자동으로 초기화하고 동적으로 규칙을 업데이트하는 방향성 비순환 그래프(DAG) 기반의 온라인 로그 파싱 방법인 Drain을 제안한다. 11개의 실제 로그 데이터셋에서 기존의 온라인 파서보다 최대 97.14% 빠른 속도로 최신 기술 수준의 정확도를 달성한다.

ABSTRACT

Logs are widely used in modern software system management because they are often the only data accessible that record system events at runtime. In recent years, because of the ever-increasing log size, data mining techniques are often utilized to help developers and operators conduct system reliability management. A typical log-based system reliability management procedure is to first parse log messages because of their unstructured format; and apply data mining techniques on the parsed logs to obtain critical system behavior information. Most of existing research studies focus on offline log parsing, which need to parse logs in batch mode. However, software systems, especially distributed systems, require online monitoring and maintenance. Thus, a log parser that can parse log messages in a streaming manner is highly in demand. To address this problem, we propose an online log parsing method, namely Drain, based on directed acyclic graph, which encodes specially designed rules for parsing. Drain can automatically generate a directed acyclic graph for a new system and update the graph according to the incoming log messages. Besides, Drain frees developers from the burden of parameter tuning by allowing them use Drain with no pre-defined parameters. To evaluate the performance of Drain, we collect 11 log datasets generated by real-world systems, ranging from distributed systems, Web applications, supercomputers, operating systems, to standalone software. The experimental results show that Drain has the highest accuracy on all 11 datasets. Moreover, Drain obtains 37.15\%$\sim$ 97.14\% improvement in the running time over the state-of-the-art online parsers. We also conduct a case study on a log-based anomaly detection task using Drain in the parsing step, which determines its effectiveness in system reliability management.

연구 동기 및 목표

  • 대규모 분산 시스템에서 실시간 시스템 모니터링에 적합하지 않은 오프라인 로그 파싱의 한계를 해결하기 위해.
  • 수동 파arameter 조정이 필요 없도록 자동 초기화 및 동적 규칙 업데이트를 가능하게 하여 로그 파싱의 필요성을 제거하기 위해.
  • 매우 높은 정확도를 유지하면서도 파싱 효율성을 크게 향상시키는 온라인 로그 파서를 개발하기 위해.
  • 분산 시스템, 웹 애플리케이션, 슈퍼컴퓨터를 포함한 다양한 실제 시스템에서 파서의 성능을 평가하기 위해.
  • 이상 탐지와 같은 종단 간 시스템 신뢰성 작업에서 파서의 효과성을 입증하기 위해.

제안 방법

  • Drain은 로그 메시지 파싱을 위한 히우리스틱 규칙을 인코딩하기 위해 방향성 비순환 그래프(DAG)를 구축하여 스트리밍 로그에서 효율적인 패턴 매칭을 가능하게 한다.
  • 파일의 통계적 특성에 기반하여 들어오는 로그 메시지의 DAG 구조를 자동으로 초기화함으로써 사전 정의된 파arameter가 필요 없도록 한다.
  • 새로운 로그 메시지가 도착함에 따라 DAG를 동적으로 업데이트함으로써 재학습 없이도 변화하는 로그 패턴에 적응할 수 있도록 한다.
  • DAG 구조는 로그 템플릿을 계층적이고 규칙 기반으로 정렬함으로써 비교 오버헤드를 줄여 로그 그룹 검색을 가속화한다.
  • 유사도 기반 매칭 전략을 사용하여 로그 메시지를 템플릿으로 그룹화하며, 고속 스트리밍 환경에서도 정확도를 유지하는 데 중점을 둔다.
  • 메모리 효율성과 확장성을 고려하여 설계되어 대규모 실시간 모니터링 파이프라인에 배포하기에 적합하다.

실험 결과

연구 질문

  • RQ1수동 파arameter 조정 없이도 온라인 로그 파싱에서 높은 정확도를 달성할 수 있는가?
  • RQ2DAG 기반 온라인 로그 파서의 성능은 기존 최신 기술 수준의 온라인 및 오프라인 파서와 비교해 정확도와 속도 측면에서 어떻게 다른가?
  • RQ3제안된 파서는 이상 탐지와 같은 후속 시스템 신뢰성 작업을 전처리 단계로 활용할 때 효과적으로 기여할 수 있는가?
  • RQ4다양한 로그 형식과 볼륨을 가진 실제 시스템 간에 파서의 일반화 능력은 얼마나 뛰어난가?
  • RQ5자동 규칙 초기화 및 동적 업데이트 메커니즘이 파싱 효율성과 정확도에 미치는 영향은 무엇인가?

주요 결과

  • Drain은 분산 시스템, 웹 애플리케이션, 슈퍼컴퓨터, 운영체제, 단독 소프트웨어에서 수집한 11개의 실제 로그 데이터셋 전부에서 최고의 파싱 정확도를 기록했다.
  • Drain은 최신 기술 수준의 온라인 로그 파서 대비 37.15%에서 97.14%까지 파싱 속도를 향상시켜 뚜렷한 효율성 향상을 보였다.
  • 파일의 스트림에 기반해 자동으로 규칙을 초기화하고 업데이트하기 때문에 수동 파arameter 조정이 전혀 필요 없었다.
  • 사례 연구에서 Drain은 효과적인 기반 로그 이상 탐지 기능을 성공적으로 지원하여 실제 시스템 신뢰성 관리에서의 유용성을 확인했다.
  • DAG 기반의 구조는 효율적인 로그 그룹 검색과 확장 가능한 파싱을 가능하게 하여 트리 기반 및 클러스터링 기반 접근 방식보다 속도와 정확도 모두에서 뛰어난 성능을 보였다.
  • 소스 코드와 11개의 모든 데이터셋을 공개하여 재현성과 향후 연구를 지원했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.