QUICK REVIEW

[論文レビュー] Deep Clustering with Associative Memories

Bishwajit Saha, Dmitry Krotov|arXiv (Cornell University)|Jan 2, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

DCAMは、Dense Associative Memoriesを用いて潜在表現とクラスタープロトタイプを共同学習し、再構成を画像・テキストモダリティ間で維持しつつクラスタリング品質を向上させる、エンドツーエンドの微分可能なディープクラスタリング手法を提示します。

ABSTRACT

Deep clustering - joint representation learning and latent space clustering - is a well studied problem especially in computer vision and text processing under the deep learning framework. While the representation learning is generally differentiable, clustering is an inherently discrete optimization task, requiring various approximations and regularizations to fit in a standard differentiable pipeline. This leads to a somewhat disjointed representation learning and clustering. In this work, we propose a novel loss function utilizing energy-based dynamics via Associative Memories to formulate a new deep clustering method, DCAM, which ties together the representation learning and clustering aspects more intricately in a single objective. Our experiments showcase the advantage of DCAM, producing improved clustering quality for various architecture choices (convolutional, residual or fully-connected) and data modalities (images or text).

研究の動機と目的

モジュール間の分離された、手動調整された分離を避ける共同表現学習とクラスタリングタスクとしての深層クラスタリングを動機づける。
エンコーディング、クラスタープロトタイプ、デコodingを単一の目的関数で結びつける連想メモリを用いた新規エネルギー関数を導入する。
アーキテクチャに依存しないことを示し、データモダリティ間で再構成品質を維持しつつクラスタリングを改善する。
多様なデータセットで環境空間と潜在空間のベースラインを上回る経験的改善を示す。

提案手法

潜在空間のエネルギー景観を通じてエンコーディング、デコーディング、および連想メモリ主導のクラスタリングを結合する単一の微分可能な損失を提案する。
memories（クラスタープロトタイプ）rhoを用いた潜在ベクトルv上のエネルギー関数E(v)を定義し、引力ダイナミクスA_rho^Tを用いてvを記憶の収束領域へ更新する。
勾配降下法を用いてE(v)を最小化し、softmaxベースの重み付けでソフトクラスタ責任を形成し、v' = A_rho^T(v)として更新する。
再構成はx' = d(v')として計算し、二乗誤差 ||x - x'||^2を最小化することで、gamma平衡化クラスタリング項を別途持たない単一の結合目的関数を得る。
エンコーダeとデコーダd、および記憶rhoが微分可能なパイプラインでエンドツーエンドに学習され、アーキテクチャに依存しない（画像はCNN、テキストはFCネットワーク）。
エネルギー景観を調整する1つのパラメータbetaを制御するT回のアトラクターステップ数を決定するカリキュラムベースのスキームを提供する。

実験結果

リサーチクエスチョン

RQ1連想記憶ダイナミクスを潜在空間クラスタリングに組み込むと、再構成品質を犠牲にすることなくクラスタ構造を改善できるか。
RQ2単一のエンドツーエンド微分可能な目的関数は、再構成と潜在空間クラスタリングの二項目をバランスさせる従来の二項目深層クラスタリング目的より優れているか。
RQ3DCAMフレームワークは異なるエンコーダ/デコーダアーキテクチャおよびデータモダリティ（画像とテキスト）に対して頑健か。
RQ4潜在空間クラスタリングにおけるAMベースのアプローチは、周囲空間クラスタリング法や既存の深層クラスタリングベースと比較してどうなるか。

主な発見

DCAMは、画像データセットおよびテキストデータセット全体で、従来およびいくつかの深層クラスタリングベースに対してクラスタリング品質（シルエット係数）を一貫して改善する。
DCAMは再構成損失を競合的に維持し、クラスタリング中も潜在表現の品質を保持することを示す。
DCAMはアーキテクチャに依存せず、CAEs、RAEs、EDCWRNベースのAEなど、さまざまな自己符号化器タイプおよびデータモダリティで良好に動作する。
このアプローチは潜在空間クラスタリング指標と教師あり風のNMIの両方で強力な性能を発揮し、複数のデータセットで最高値を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。