Skip to main content
QUICK REVIEW

[논문 리뷰] DeLog: An Efficient Log Compression Framework with Pattern Signature Synthesis

Siyu Yu, Yifan Wu|arXiv (Cornell University)|2026. 01. 21.
Software System Performance and Reliability인용 수 0
한 줄 요약

DeLog는 구문 분석 정확도와 압축 사이의 가정된 연결 고리를 의심합니다. 단일 패스 패턴 시그니처 합성을 도입하여 동질적이고 압축 가능한 토큰 그룹을 형성하고, 공개 로그와 운영 로그에서 최첨단 성능을 달성합니다.

ABSTRACT

Parser-based log compression, which separates static templates from dynamic variables, is a promising approach to exploit the unique structure of log data. However, its performance on complex production logs is often unsatisfactory. This performance gap coincides with a known degradation in the accuracy of its core log parsing component on such data, motivating our investigation into a foundational yet unverified question: does higher parsing accuracy necessarily lead to better compression ratio? To answer this, we conduct the first empirical study quantifying this relationship and find that a higher parsing accuracy does not guarantee a better compression ratio. Instead, our findings reveal that compression ratio is dictated by achieving effective pattern-based grouping and encoding, i.e., the partitioning of tokens into low entropy, highly compressible groups. Guided by this insight, we design DeLog, a novel log compressor that implements a Pattern Signature Synthesis mechanism to achieve efficient pattern-based grouping. On 16 public and 10 production datasets, DeLog achieves state-of-the-art compression ratio and speed.

연구 동기 및 목표

  • 더 높은 로그 파싱 정확도가 압축 비율을 개선하는지에 대한 의문 제기.
  • 파싱 정확도보다 패턴 기반 그룹화에 우선순위를 두는 압축 프레임워크 개발.
  • 단일 패스 토큰 특징 합성과 패턴 시그니처 메커니즘 설계.
  • 실용적 사용을 위한 빠른 해제 중심 변형(DeLog-L) 제공.
  • 공개 및 운영 데이터셋에서 압축 비율과 속도를 벤치마킹하기 위한 DeLog 평가.

제안 방법

  • Intrinsic 토큰 구조와 외부 의미 맥락을 포착하는 Dynamic Feature Pool를 구축하기 위한 한 번의 스캔 수행.
  • 선택된 특징으로 패턴 시그니처를 합성하여 토큰을 패턴 기반 그룹으로 분류.
  • 숫자 스트림의 델타/엘라스틱, 영숫자 문자열의 사전(Dictionary) 등 압축 극대화를 위한 맞춤 기법으로 그룹 인코딩.
  • 유사하게 인코딩된 토큰 그룹을 블록으로 합치고 범용 일반 압축기와 함께 아카이브화.
  • IP 및 타임스탬프에 대한 정규식 매칭을 생략하여 해제 속도를 높이는 DeLog-L 제공.
  • 데이터 청크에서 병렬로 압축을 역으로 해제하는 해제 프로세스 설명.

실험 결과

연구 질문

  • RQ1더 높은 로그 파싱 정확도가 더 높은 압축 비율을 보장하는가?
  • RQ2어떤 토큰 특성과 그룹화 전략이 최고의 압축 성능을 낳는가?
  • RQ3패턴 기반 그룹화가 현대 운영 로그에서 전통적인 파싱 중심 접근법을 능가할 수 있는가?
  • RQ4공개 및 운영 데이터에서 높은 압축을 달성하면서도 적절한 속도를 유지하는 데 DeLog가 얼마나 효과적인가?
  • RQ5빠른 해제 변형(DeLog-L)이 전체 사용성에 미치는 영향은 무엇인가?

주요 결과

  • 더 높은 파싱 정확도가 데이터셋 전반에서 더 좋은 압축 비율과 일관되게 상관관계가 있는 것은 아니다.
  • 압축 이득은 파싱 정확도만으로는 아니라 동질적이고 패턴 기반 스트림을 생성하는 데서 발생한다.
  • Dynamic Feature Pool과 Pattern Signature Synthesis는 내부 구조와 외부 맥락에 기반한 효과적인 그룹화를 가능하게 한다.
  • 16개의 공개 데이터셋과 10개의 운영 데이터셋에서 DeLog는 벤치마크보다 더 나은 압축 비율과 더 빠른 압축 속도를 달성한다.
  • DeLog-L은 벤치마크보다 해제 처리량이 현저히 빠르면서도 표준 DeLog와 유사한 압축 비율을 달성한다.
  • DeLog/오픈소스 구현은 연구자와 실무자 모두를 위한 실용적 도구를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.