Skip to main content
QUICK REVIEW

[論文レビュー] Robust Bregman Clustering

Aurélie Fischer, Clément Levrard|arXiv (Cornell University)|Dec 11, 2018
Bayesian Methods and Mixture Models参考文献 35被引用数 1
ひとこと要約

本稿では、敵対的ノイズを扱うためにトリミングに基づく頑健なBregmanクラスタリング手法を導入し、部分ガウス型収束速度と有限標本ブレイクダウン点の頑健性を達成している。Lloyd型アルゴリズムとデータ駆動型パラメータ選択を組み合わせたトリミング済み経験的歪み最小化器を提案し、重尾分布や汚染されたデータ条件下での理論的保証と実験的性能を示している。

ABSTRACT

Using a trimming approach, we investigate a k-means type method based on Bregman divergences for clustering data possibly corrupted with clutter noise. The main interest of Bregman divergences is that the standard Lloyd algorithm adapts to these distortion measures, and they are well-suited for clustering data sampled according to mixture models from exponential families. We prove that there exists an optimal codebook, and that an empirically optimal codebook converges a.s. to an optimal codebook in the distortion sense. Moreover, we obtain the sub-Gaussian rate of convergence for k-means 1 $\sqrt$ n under mild tail assumptions. Also, we derive a Lloyd-type algorithm with a trimming parameter that can be selected from data according to some heuristic, and present some experimental results.

研究の動機と目的

  • データにおけるBregmanクラスタリングの敵対的ノイズに対する高い感受性を緩和すること。
  • 重尾分布や汚染されたデータ下でも性能を維持できる理論的裏付けのある頑健なクラスタリング手法の開発。
  • やや弱いモーメント仮定の下で、トリミング推定量の収束速度とブレイクダウン点の性質を確立すること。
  • トリミングレベルとクラスタ数の自動選択を備えた実用的なアルゴリズムの提案。
  • ノイズのある条件下での合成データおよび実世界のデータセットを用いた、本手法の実験的妥当性の検証。

提案手法

  • クラスタ中心へのBregman発散が最大となるデータ点の割合hを除外することで、トリミング済み経験的歪み最小化器 ˆcn,h を提案する。
  • トリミング歪み関数 Rn,h(c) = (1/n) ∑ min_j dφ(Xi, cj) · τh(c)(Xi) を定義し、τh は中心からの距離に基づくトリミングインジケータ関数である。
  • 固定されたトリミングレベルhを用いて、繰り返しクラスタ中心を更新し、外れ値を除去する修正版Lloyd型アルゴリズムを導入する。
  • 歪みと安定性基準に基づき、クラスタ数kとトリミングレベルhの両方をデータ駆動的に選択するヒューリスティックを提案する。
  • 有界分散と部分ガウス型尾部仮定を活用した、経験過程理論を用いたデバイエーションバウンドによる理論的収束の確立。
  • 有限標本ブレイクダウン点(FBP)分析を用いて頑健性を定量的に評価し、正の割合の敵対的汚染に耐えられることを示している。

実験結果

リサーチクエスチョン

  • RQ1Bregmanクラスタリングは、収束速度を維持したまま、敵対的ノイズに対して頑健にできるか?
  • RQ2やや弱いモーメント条件下で、トリミング済みBregmanクラスタリング推定量の理論的収束速度は何か?
  • RQ3有限標本ブレイクダウン点として、トリミング推定量はどの程度の汚染に耐えられるか?
  • RQ4データ駆動型ヒューリスティックは、実際の応用においてクラスタ数とトリミングレベルを信頼性高く選択できるか?
  • RQ5トリミングk-meansなどの既存の頑健なクラスタリング手法と比較して、本手法の歪みと頑健性はどのように異なるか?

主な発見

  • トリミング済みBregmanクラスタリング推定量 ˆcn,h は、有界分散仮定の下で、過剰歪みに対して部分ガウス型収束速度 O(1/√n) を達成する。
  • 本手法は、正の割合の敵対的汚染に耐えることができ、有限標本ブレイクダウン点はトリミングレベルとクラスタ構造の関数によって下限づけられる。
  • 理論的分析により、標本サイズが増加するにつれて、トリミング推定量が真のトリミング最適コードブック c∗h にほとんど確実に収束することが確認された。
  • 数値実験では、ノイズや重尾分布下でも、トリミングk-means や tclust よりも本手法が優れた性能を示した。
  • k と h の選択に用いられるヒューリスティックは、ノイズレベルの事前知識がなくても、安定的かつ正確なクラスタリング結果をもたらした。
  • 経験過程不等式を用いて、歪みの過剰リスクに関する理論的バウンドを確立し、標本サイズとトリミングレベルに明示的な依存関係を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。