Skip to main content
QUICK REVIEW

[논문 리뷰] Clustering by compression

Rudi Cilibrasi, Paul Vitányi|ArXiv.org|2003. 12. 19.
Algorithms and Data Compression참고 문헌 24인용 수 61
한 줄 요약

이 논문은 압축 알고리즘을 활용하여 도메인 특화 특징에 의존하지 않고 데이터를 군집화할 수 있는 보편적인 유사도 측정법인 정규화된 압축 거리(NCD)를 소개한다. 이는 유전체학, 바이러스학, 언어학, 음악, 천문학 등 다양한 분야에서 전문가의 분류와 일치하는 결과를 도출하며, 단지 파일 압축과 계층적 군집화만을 사용하여 강건하고 특징에 의존하지 않는 군집화를 실현한다.

ABSTRACT

We present a new method for clustering based on compression. The method doesn't use subject-specific features or background knowledge, and works as follows: First, we determine a universal similarity distance, the normalized compression distance or NCD, computed from the lengths of compressed data files (singly and in pairwise concatenation). Second, we apply a hierarchical clustering method. The NCD is universal in that it is not restricted to a specific application area, and works across application area boundaries. A theoretical precursor, the normalized information distance, co-developed by one of the authors, is provably optimal but uses the non-computable notion of Kolmogorov complexity. We propose precise notions of similarity metric, normal compressor, and show that the NCD based on a normal compressor is a similarity metric that approximates universality. To extract a hierarchy of clusters from the distance matrix, we determine a dendrogram (binary tree) by a new quartet method and a fast heuristic to implement it. The method is implemented and available as public software, and is robust under choice of different compressors. To substantiate our claims of universality and robustness, we report evidence of successful application in areas as diverse as genomics, virology, languages, literature, music, handwritten digits, astronomy, and combinations of objects from completely different domains, using statistical, dictionary, and block sorting compressors. In genomics we presented new evidence for major questions in Mammalian evolution, based on whole-mitochondrial genomic analysis: the Eutherian orders and the Marsupionta hypothesis against the Theria hypothesis.

연구 동기 및 목표

  • 도메인 전문 지식이 필요 없이 다양한 분야에 적용 가능한 보편적이고 특징에 의존하지 않는 유사도 측정법을 개발하는 것.
  • 코르모고로프 복잡도에 기반한 이상적인 정규화된 정보 거리와 실용적인 계산이 가능한 군집화 사이의 격차를 메우기 위해, 실제 압축기로 이를 근사화함으로써 이론적으로 최적인 정규화된 정보 거리를 실현하는 것.
  • 단지 데이터 압축과 계층적 군집화만을 사용하여 응용 분야의 경계를 초월해 강건하고 보편적인 군집화 프레임워크를 구축하는 것.
  • 다양한 데이터 유형과 여러 압축기로 구성된 광범위한 실험을 통해 방법의 보편성과 강건성을 검증하는 것.
  • 알 수 없는 데이터에서 주요 유사도 특징을 자동으로 탐지함으로써 탐색적 데이터 분석 및 머신러닝 응용을 지원하는 것.

제안 방법

  • 실제 압축기로 작동하는 보편적인 계산 가능한 정규화된 정보 거리의 근사치로 정규화된 압축 거리(NCD)를 정의한다.
  • 공식을 사용해 데이터 객체 간의 NCD를 계산한다: NCD(x,y) = [C(xy) - min(C(x), C(y))] / max(C(x), C(y))이며, 여기서 C는 압축기이고 C(xy)는 연결된 파일의 압축 크기이다.
  • PPMZ, bzip2, gzip 등의 일반 압축기를 사용하여 코르모고로프 복잡도를 근사함으로써 NCD가 유효한 유사도 측정법으로 유지되도록 보장한다.
  • 모든 데이터 객체 간의 쌍별 NCD 값에서 거리 행렬을 구성한다.
  • 거리 행렬에서 계층적 덱스트럼(이진 트리)을 구축하기 위해 쿼드렛 방법을 위한 새로운 빠른 히우리스틱을 적용한다.
  • 다양한 도메인에서의 전문가 분류와 비교하여 결과 군집을 시각화하고 검증한다.
Figure 1: The three possible quartet topologies for the set of leaf labels u,v,w,x
Figure 1: The three possible quartet topologies for the set of leaf labels u,v,w,x

실험 결과

연구 질문

  • RQ1압축 기반의 유사도 측정법이 도메인 특화 특징에 의존하지 않고 다양한 데이터 도메인에서 보편성을 달성할 수 있는가?
  • RQ2실제 압축기에서 유도된 NCD는 이론적으로 최적인 정규화된 정보 거리를 어느 정도 근사하는가?
  • RQ3다양한 종류의 압축기와 데이터 유형에 대해 군집화 성능가 얼마나 강건한가?
  • RQ4NCD는 알려지지 않았거나 복잡한 특징을 가진 데이터에서 주요 유사도 특징을 자동으로 탐지할 수 있는가?
  • RQ5NCD 기반 군집화는 유전체학과 천문학과 같은 실제 과학 도메인에서 전문가의 분류와 일치하는가?

주요 결과

  • NCD 방법은 마이크로쿼서 GRS 1915+105의 16개 X선 관측 간격을 군집화할 때 전문가 분류에 해당하는 세 가지 변동성 모드로 나누는 데 성공했으며, 덱스트럼 유사도 점수 S(T) = 0.994를 기록했다.
  • 이 방법은 전체 미토콘드리아 게놈을 군집화하여 척추동물 진화에서 마스페이오니아 타입 가설이 테리아 가설보다 더 강력한 증거를 제공했다.
  • 50개 이상의 유라시아 언어에 대한 NCD 기반 군집화는 역사적 언어학 분류와 일치하는 언어 나무를 생성하여 언어 간 보편성을 입증했다.
  • 이 방법은 학생 제출물에서 표절을 높은 정확도로 탐지하여 교육 및 문서 분석 응용 분야에서의 유용성을 보였다.
  • 손글씨 숫자와 음악 파일에 대한 NCD 기반 군집화는 특징 엔지니어링 없이도 알려진 카테고리와 높은 일관성을 유지했다.
  • 이 방법은 PPMZ, bzip2, gzip 등의 다양한 압축기에서 성능이 강건하여 압축기 선택에 독립적임을 보였다.
Figure 2: An example tree consistent with quartet topology $uv|wx$
Figure 2: An example tree consistent with quartet topology $uv|wx$

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.