QUICK REVIEW

[논문 리뷰] Robust Bregman Clustering

Aurélie Fischer, Clément Levrard|arXiv (Cornell University)|2018. 12. 11.

Bayesian Methods and Mixture Models참고 문헌 35인용 수 1

한 줄 요약

이 논문은 적대적 노이즈를 처리하기 위해 트리밍 기반의 강건한 Bregman 클러스터링 방법을 제안하며, 서브-가우시안 수렴 속도와 유한표본 붕괴점 강건성을 달성한다. Lloyd 유형 알고리즘과 데이터 기반의 파rameter 선택을 통합한 트리밍된 경험 왜곡 최소화기법을 제안하며, 무거운 尾 끝 분포 및 손상된 데이터 조건 하에서 시뮬레이션 및 실세계 데이터셋에 대한 강력한 이론적 보장과 실증 성능을 입증한다.

ABSTRACT

Using a trimming approach, we investigate a k-means type method based on Bregman divergences for clustering data possibly corrupted with clutter noise. The main interest of Bregman divergences is that the standard Lloyd algorithm adapts to these distortion measures, and they are well-suited for clustering data sampled according to mixture models from exponential families. We prove that there exists an optimal codebook, and that an empirically optimal codebook converges a.s. to an optimal codebook in the distortion sense. Moreover, we obtain the sub-Gaussian rate of convergence for k-means 1 $\sqrt$ n under mild tail assumptions. Also, we derive a Lloyd-type algorithm with a trimming parameter that can be selected from data according to some heuristic, and present some experimental results.

연구 동기 및 목표

데이터 내 적대적 노이즈에 민감한 Bregman 클러스터링의 문제를 해결하기 위해.
무거운 尾 끝 또는 손상된 데이터 하에서도 성능을 유지할 수 있는 이론적으로 탄탄한 강건한 클러스터링 방법을 개발하기 위해.
약한 모멘트 가정 하에 트리밍 추정량의 수렴 속도와 붕괴점 성질을 확립하기 위해.
트리밍 수준과 클러스터 수를 자동으로 선택하는 실용적인 알고리즘을 제안하기 위해.
노이즈 조건 하에서 시뮬레이션 및 실세계 데이터셋에 대한 방법의 실증적 검증을 수행하기 위해.

제안 방법

클러스터 중심으로부터 Bregman 발산이 가장 큰 데이터 포인트의 비율 h를 제거함으로써, ˆcn,h로 표시되는 트리밍된 경험 왜곡 최소화기법을 제안한다.
Rn,h(c) = (1/n) ∑ min_j dφ(Xi, cj) · τh(c)(Xi)로 정의된 트리밍된 왜곡 함수를 제안하며, 여기서 τh는 중심으로부터의 거리에 기반한 트리밍 지표이다.
고정된 트리밍 수준 h를 사용하여 클러스터 중심을 반복적으로 갱신하고 이상치를 제거하는 수정된 Lloyd 유형 알고리즘을 도입한다.
왜곡과 안정성 기준을 바탕으로 클러스터 수 k와 트리밍 수준 h를 동시에 선택하는 히우리스틱을 개발한다.
유한표본 붕괴점(FBP) 분석을 통해 강건성을 정량화하며, 적대적 오염의 양이 양의 비율을 차지하더라도 방법이 견딜 수 있음을 보여준다.
유한표본 붕괴점(FBP) 분석을 통해 강건성을 정량화하며, 적대적 오염의 비율이 양의 비율을 차지하더라도 방법이 견딜 수 있음을 보여준다.

실험 결과

연구 질문

RQ1Bregman 클러스터링은 서브-가우시안 수렴 속도를 유지하면서도 적대적 노이즈에 강건하게 만들 수 있는가?
RQ2약한 모멘트 조건 하에서 트리밍된 Bregman 클러스터링 추정량의 이론적 수렴 속도는 무엇인가?
RQ3유한표본 붕괴점 관점에서 트리밍된 추정량은 얼마나 많은 오염을 견딜 수 있는가?
RQ4실제로 클러스터 수와 트리밍 수준을 동시에 신뢰할 수 있는 데이터 기반 히우리스틱을 제안할 수 있는가?
RQ5기존의 트리밍된 k-means와 같은 강건한 클러스터링 방법과 비교해 볼 때, 제안된 방법은 왜곡과 강건성 측면에서 어떻게 다른가?

주요 결과

트리밍된 Bregman 클러스터링 추정량 ˆcn,h는 유한분산 가정 하에 초과 왜곡에 대해 O(1/√n)의 서브-가우시안 수렴 속도를 달성한다.
메서드는 양의 비율의 적대적 오염에 강건하며, 트리밍 수준과 클러스터 구조에 따라 하한이 보장된 유한표본 붕괴점(FCP)을 가진다.
이론적 분석을 통해 트리밍된 추정량이 표본 크기가 증가함에 따라 진짜 트리밍 최적 코드북 c∗h로 거의 확실히 수렴함을 확인한다.
수치 실험 결과, 무거운 尾 끝 및 노이즈 조건 하에서 트리밍된 k-means와 tclust보다 성능이 뛰어나다는 것을 입증한다.
k와 h를 선택하는 데 사용된 히우리스틱은 노이즈 수준에 대한 사전 지식 없이도 안정적이고 정확한 클러스터링 결과를 도출한다.
표본 크기와 트리밍 수준에 명시적인 의존성을 가지는, 경험 과정 부등식을 통해 초과 왜곡 위험에 대한 이론적 경계를 확립한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.