QUICK REVIEW

[논문 리뷰] Length Matters: Clustering System Log Messages using Length of Words

Keiichi Shima|arXiv (Cornell University)|2016. 11. 10.

Software System Performance and Reliability참고 문헌 8인용 수 92

한 줄 요약

이 논문은 빈도 분석이나 이중 패ass 처리가 필요 없이 단일 패스, 온라인 시스템 로그 메시지 클러스터링 방법인 LenMa를 제안한다. 각 메시지를 단어 길이의 시퀀스로 간주함으로써 기존의 SHISO와 유사한 템플릿 클러스터링 정확도를 달성하면서도 클라우드 및 분산 시스템의 동적 로그 패턴에 실시간으로 적응할 수 있다.

ABSTRACT

The analysis techniques of system log messages (syslog messages) have a long history from when the syslog mechanism was invented. Typically, the analysis consists of two parts, one is a message template generation, and the other is finding something interesting using the messages classified by the inferred templates. It is important to generate better templates to achieve better, precise, or convincible analysis results. In this paper, we propose a classification methodology using the length of words of each message. Our method is suitable for online template generation because it does not require two-pass analysis to generate template messages, that is an important factor considering increasing amount of log messages produced by a large number of system components such as cloud infrastructure.

연구 동기 및 목표

클라우드 인fra구조와 같은 동적 환경에서 실시간으로 확장 가능한 시스템 로그 메시지 클러스터링 문제를 해결하기 위해.
이중 패스 분석과 빈도 기반 단어 선택을 피하여 템플릿 생성의 복잡성을 줄이기 위해.
단어 길이 시퀀스만으로도 시스템 로그 메시지 클러스터링에 신뢰할 만하고 충분한 기초가 될 수 있는지 탐색하기 위해.
소프트웨어 업데이트 또는 새로운 컴포넌트로 인한 로그 메시지 패턴 변화에 신속히 반응할 수 있는 온라인, 적응형 템플릿 마이닝을 가능하게 하기 위해.

제안 방법

각 로그 메시지를 단어 길이의 시퀀스로 표현하며, 각 단어의 문자 수를 특성으로 간주한다.
유사도 임계값(Tc = 0.9)과 최소 단어 수 임계값(Tp = 3)을 적용하여, 일치하는 길이 시퀀스 기반으로 메시지를 클러스터로 묶는다.
단일 패스로 클러스터링을 수행하므로 고속 로그 스트림의 실시간 처리에 적합하다.
메시지의 단어 내용, 문자 유형, 빈도 분석을 수행하지 않으며, 오직 메시지 내 각 단어의 길이에만 집중한다.
간단한 벡터 기반 비교를 사용: 동일하거나 매우 유사한 단어 길이 시퀀스를 가진 메시지는 함께 그룹화된다.
복잡한 사전 처리 또는 학습 단계 없이 경량이고 확장 가능한 설계를 하였다.

실험 결과

연구 질문

RQ1단어 길이 시퀀스만으로도 시스템 로그 메시지 클러스터링에 신뢰할 만하고 충분한 기초가 될 수 있는가?
RQ2이중 패스, 빈도 기반 또는 문자 유형 기반 방법과 비교해 볼 때, 단일 패스 기반 길이 기반 클러스터링 방법은 템플릿 정확도와 확장성 측면에서 어떻게 비교되는가?
RQ3이 방법은 사전 지식이나 학습 없이도 클라우드 및 분산 시스템의 동적 로그 패턴을 효과적으로 처리할 수 있는가?
RQ4실세계 로그 데이터셋에서 최적의 클러스터링 결과를 얻기 위해 유사도 및 최소 단어 수의 임계값으로 어떤 설정이 가장 적절한가?

주요 결과

LenMa는 로그/보안 데이터셋에서 SHISO(26개)와 동일한 템플릿 수(26개)를 달성하여 더 단순한 처리 방식으로도 경쟁 가능한 성능을 입증했다.
132,480개의 1분 단위 로그 그룹을 25개의 고유한 메시지 패턴 클러스터로 성공적으로 클러스터링하여 강력한 패턴 인식 능력을 보였다.
SSH 연결 시도 및 노드 재시작과 같은 빈번한 패턴들이 로그 스트림에서 성공적으로 식별되고 분리되었다.
이상적인 SSH 활동 및 시스템 재시작과 같은 고유한 행동도 탐지되어 이상 탐지에 유용함을 보였다.
단어 빈도나 문자 유형 분석을 사용하지 않음에도 불구하고, LenMa는 알려진 시스템 동작과 일치하는 의미 있는 클러스터를 생성했다.
온라인 처리에 효과적이었으며, 이중 패스 분석의 오버헤드 없이 실시간 템플릿 추론을 가능하게 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.