[論文レビュー] Incremental Graph Construction Enables Robust Spectral Clustering of Texts
本論文は、任意の k に対して連結性を保証するインクリメンタルな k-NN グラフ構築を提案し、特に低い k でのテキスト埋め込みの信号に対して頑健なスペクトral クラスタリングを実現します。Massive Text Embedding Benchmark の6データセットで検証。標準の k-NN が疎な領域で劣る一方、より大きな k では同等の性能を示します。
Neighborhood graphs are a critical but often fragile step in spectral clustering of text embeddings. On realistic text datasets, standard $k$-NN graphs can contain many disconnected components at practical sparsity levels (small $k$), making spectral clustering degenerate and sensitive to hyperparameters. We introduce a simple incremental $k$-NN graph construction that preserves connectivity by design: each new node is linked to its $k$ nearest previously inserted nodes, which guarantees a connected graph for any $k$. We provide an inductive proof of connectedness and discuss implications for incremental updates when new documents arrive. We validate the approach on spectral clustering of SentenceTransformer embeddings using Laplacian eigenmaps across six clustering datasets from the Massive Text Embedding Benchmark. Compared to standard $k$-NN graphs, our method outperforms in the low-$k$ regime where disconnected components are prevalent, and matches standard $k$-NN at larger $k$.
研究の動機と目的
- テキスト埋め込みのスペクトral クラスタリングにおける標準の k-NN グラフの連結性欠如の脆弱性を動機づける。
- どの k についても連結性を保証するインクリメンタルなグラフ構築アルゴリズムを提案する。
- 複数のテキストデータセットにわたるスペクトral クラスタリング性能へのインクリメンタルグラフの影響を評価する。
- ノード順序と埋め込みモデルの変動に対するクラスタリング結果の安定性と頑健性を評価する。
提案手法
- 新しいノードがすでに挿入済みノードの中から k 最近傍と結ばれ、グラフの連結性を保証するインクリメンタル k-NN グラフ構築を提案する。
- 任意の N と k に対してインクリメンタルグラフが連結であることを形式的帰納的に証明する。
- インクリメンタル成長中の隣接行列の変化を限定的に抑えることで計算上の利点を分析する。
- Laplacian Eigenmaps の二つのアフィニティスキーム(接続ベースとガウシアンカーネルベース)を評価し、k-NN グラフとともにその適用を正当化する。
- Laplacian 固有値分解によるクラスタリングを行い、QR ベースのクラスタリングと比較する。複数データセットにわたり標準の k-NN グラフと比較する。

実験結果
リサーチクエスチョン
- RQ1インクリメンタルグラフ構築は任意の k と N に対して全体の連結性を保証するか?
- RQ2低い k のときに標準の k-NN グラフと比較して、テキスト埋め込みのスペクトral クラスタリング品質にどのような影響を与えるか?
- RQ3ノード順序と埋め込みモデルの変動に対してアプローチはどれだけ敏感か?
- RQ4インクリメンタルグラフアプローチは高次元クラスタリング手法に近い性能を、低次元のスペクトral 埋め込み空間で達成できるか?
主な発見
- インクリメンタル k-NN グラフはノード数に対して単一の連結成分を保証し、信頼性の高いスペクトral クラスタリングを可能にする。
- 低 k の領域では標準の k-NN グラフが疎になることが多いが、インクリメンタル手法は複数データセットで一貫してクラスタリング性能を改善する。
- k が大きくなるにつれてインクリメンタル手法は標準の k-NN グラフの性能に近づき、特に大きな k で一致する。
- 複数データセットと埋め込みモデルにわたり、ノード順序への頑健性とクラスタリング結果のばらつきが小さいことを示す。
- インクリメンタル グラフから得られる低次元スペクトral 埋め込みは、高次元の K-means ベースラインと比較して競争力のあるクラスタリング結果を達成できることを示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。