QUICK REVIEW

[논문 리뷰] LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak Supervision

Thorsten Wittkopp, Philipp Wiesner|arXiv (Cornell University)|2021. 11. 02.

Software System Performance and Reliability참고 문헌 34인용 수 7

한 줄 요약

LogLAB는 모니터링 시스템에서 제공하는 rough한 장애 발생 시간 창만을 사용하여 로그 이상 탐지 레이블링을 자동화하는 약한 지도 학습 기반의 어텐션 기반 딥러닝 모델이다. 세 개의 데이터셋에서 조건부로 큰 시간 창 오차가 존재하더라도 F1 점수 0.98 이상을 달성하며, 클래스 불균형과 노이즈 있는 레이블을 처리하는 데 특화된 커스터마이즈드 손실 함수 덕분에 9개의 베이스라인을 모두 능가한다.

ABSTRACT

With increasing scale and complexity of cloud operations, automated detection of anomalies in monitoring data such as logs will be an essential part of managing future IT infrastructures. However, many methods based on artificial intelligence, such as supervised deep learning models, require large amounts of labeled training data to perform well. In practice, this data is rarely available because labeling log data is expensive, time-consuming, and requires a deep understanding of the underlying system. We present LogLAB, a novel modeling approach for automated labeling of log messages without requiring manual work by experts. Our method relies on estimated failure time windows provided by monitoring systems to produce precise labeled datasets in retrospect. It is based on the attention mechanism and uses a custom objective function for weak supervision deep learning techniques that accounts for imbalanced data. Our evaluation shows that LogLAB consistently outperforms nine benchmark approaches across three different datasets and maintains an F1-score of more than 0.98 even at large failure time windows.

연구 동기 및 목표

감독 학습 기반 이상 탐지 모델을 훈련하기 위한 레이블링된 로그 데이터의 부족 문제를 해결하기 위해.
전문가가 제공한 참값이 없는 상황에서 수동 레이블링에 의존하지 않고 로그 메시지 레이블링을 자동화하기 위해.
모니터링 시스템에서 제공하는 근사한 장애 발생 시간 창을 약한 지도 학습으로 활용하는 방법을 개발하기 위해.
노이즈 있는 레이블과 정확하지 않은 레이블을 고려하여 클래스 불균형 문제를 해결하는 데 특화된 커스터마이즈드 손실 함수를 설계하여, 불균형한 로그 이상 탐지 레이블링 성능을 향상시키기 위해.
다양한 수준의 레이블링 불확실성 하에서 세 개의 실제 로그 데이터셋에서 LogLAB을 9개의 베이스라인과 비교 평가하기 위해.

제안 방법

LogLAB는 자기 어텐션(self-attention)을 사용하는 트랜스포머 기반 인코더를 활용하여 토큰화된 로그 메시지를 처리한다.
로그 메시지는 토큰화되고 학습된 임베딩을 사용하여 임bedding되며, 16진수나 타임스탬프와 같은 민감한 값들은 자리표시자로 대체된다.
모델은 [CLS] 토큰 표현에 피드포워드 헤드를 적용하여 각 로그 메시지의 이상 점수를 예측한다.
클래스 불균형을 다루기 위해 양성 샘플(P)에 대한 L2 손실과 비레이블링된 샘플(U)에 대한 역수 정규화된 L2 손실을 조합한 커스터마이즈드 목적 함수를 사용한다.
손실 함수는 다음과 같이 정의된다: (1/m) * Σ[(1−ỹi)*||zi||² + ỹi * (|P|/(|P|+|U|))² / ||zi||], 여기서 ỹi는 정확하지 않은 레이블이고 zi는 모델 출력이다.
이 방법은 PU 학습 문제로 간주되며, 양성(P) 샘플은 장애 시간 창 외부의 로그이고, 비레이블링(U) 샘플은 그 안에 있는 로그이다.

실험 결과

연구 질문

RQ1모니터링 시스템에서 제공하는 장애 발생 시간 창 추정치만을 사용하여 로그 이상 탐지 레이블링을 자동화할 수 있는가?
RQ2약한 지도 학습 하에서 기존의 텍스트 분류 및 이상 탐지 방법과 비교해 LogLAB의 성능은 어떠한가?
RQ3커스터마이즈드 손실 함수가 불균형적이고 약한 지도 학습을 받는 로그 데이터에서 성능 향상에 얼마나 기여하는가?
RQ4장애 발생 시간 창 추정치의 불확실성이 증가함에 따라 LogLAB의 성능은 얼마나 강인한가?
RQ5대부분의 샘플이 노이즈가 있거나 잘못된 이상으로 레이블링된 상태에서도 모델이 높은 F1 점수를 유지할 수 있는가?

주요 결과

Thunderbird 데이터셋에서 δ = ±1000ms일 때 LogLAB은 F1 점수 0.9995를 기록하며, 다음으로 우수한 베이스라인(0.3440)을 크게 앞서 간다.
BGL 데이터셋에서 δ = ±15000ms일 때 LogLAB은 F1 점수 0.9902를 유지하며, 다른 방법들은 0.98 이하로 떨어진다.
Spirit 데이터셋에서 δ = ±15000ms일 때 LogLAB은 F1 점수 0.9825를 기록하며, 다음으로 우수한 방법보다 0.46점 이상 높다.
모든 데이터셋과 시간 창에서 LogLAB은 비레이블링 세트(U)에 최대 326만 개의 샘플이 포함되어도 F1 점수 0.98 이상을 일관되게 유지한다.
커스터마이즈드 손실 함수는 클래스 불균형과 노이즈 있는 레이블로 인한 성능 저하를 효과적으로 완화하여 레이블링 불확실성이 증가함에 따라 안정적인 성능을 유지한다.
장애 발생 시간 창이 30초로 확장되더라도 LogLAB의 성능은 강인하게 유지되며, 실제 모니터링 시스템의 정확도 부족에 대한 강력한 일반화 능력을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.