Skip to main content
QUICK REVIEW

[論文レビュー] Hierarchical Clusterings of Unweighted Graphs

Svein Høgemo, Christophe Paul|arXiv (Cornell University)|Aug 7, 2020
Complex Network Analysis Techniques被引用数 2
ひとこと要約

本稿では、Dasgupta目的関数下での重みなしグラフにおける階層的クラスタリングの最適化のための正規化手順を導入する。密度の高い重みなしグラフにおいて、この問題がNP完全であることを証明し、6サイクルやコ・バイパクトグラフなどの最小良好グラフ(min-well-behaved graphs)を同定する。これらのグラフでは、k個のコピーの最適クラスタリングが単一のコピーの最適クラスタリングに帰着可能であり、因子分解木を用いた効率的な計算が可能になる。

ABSTRACT

International audience

研究の動機と目的

  • 重みなし類似度グラフにおけるDasgupta目的関数下での最適階層的クラスタリングを求める計算複雑性を特定すること。
  • k個の非交差コピーの最適クラスタリングが単一コピーの最適クラスタリングに帰着可能な構造的グラフクラスを同定すること。
  • 任意の階層的クラスタリングを、特定のグラフクラスにおいて最適なものに変換する正規化手順を開発すること。
  • 6頂点からなるサイクル(C6)が最小良好であることを証明し、コ・バイパクトグラフを超える、効率的にクラスタ可能なグラフのクラスを拡張すること。

提案手法

  • 2段階の正規化手順を導入:上位から下位への走査でカット最適化を適用し、下位から上位への走査で左側加重分配およびバランス調整を適用する。
  • 正規化手順を繰り返し適用することで、コストをさらに削減できない最適なクラスタリングに到達するまで、任意の階層的クラスタリングを段階的に改善する。
  • 最小良好グラフ(min-well-behaved graphs)を、k個の非交差コピー H(k) の最適クラスタリングが単一コピー H の最適クラスタリングから導けるようなグラフとして定義する。
  • 正規化プロセス中におけるサブプリズム間のDCコストの変化を係数行列を用いて分析し、コストが増加しないことを確認する。
  • プリズムグラフ P に手順を適用し、そのk重コピー P(k) がDCコスト48k²で因子分解可能な最適クラスタリングを有することを証明する。
  • 符号付き係数を用いたネットゲイン解析により、下位から上位への走査中にいかなるサブプリズム構成も総合的なDCコストを低下させないことを検証する。

実験結果

リサーチクエスチョン

  • RQ1重みなしグラフにおけるDasgupta目的関数下での最適階層的クラスタリングを求める問題はNP完全か?
  • RQ2どのグラフクラスにおいて、k個の非交差コピーの最適クラスタリングが単一コピーの最適クラスタリングに帰着可能か?
  • RQ36頂点からなるサイクル(C6)は最小良好か、すなわち、C6のk個の非交差コピーの最適クラスタリングが各コピーを独立に最適にクラスタリングすることで得られるか?
  • RQ4正規化手順は、すべての段階でDCコストを保存または改善することが保証され、最適解への収束を保証できるか?
  • RQ5グラフのどの構造的性質が、k重の非交差和集合がコピーごとに因子分解可能な最適クラスタリングを維持することを保証するか?

主な発見

  • 重みなしグラフにおけるDasgupta目的関数下での最適階層的クラスタリングを求める問題は、すべての頂点の次数が n−6 以上であるような密度の高いグラフに対してもNP完全である。
  • 6頂点からなるサイクル(C6)は最小良好である。これは、任意のkについて、C6のk個の非交差コピーの最適階層的クラスタリングが、各コピーを独立に最適にクラスタリングすることで得られることを意味する。
  • 正規化手順は安全である。上位から下位、および下位から上位への走査の両方が、DCコストを保存または改善するため、最適なクラスタリングへの収束が保証される。
  • プリズムグラフ P は最大良好(max-well-behaved)であり、そのk重非交差和集合 P(k) はDCコスト48k²の最適階層的クラスタリングを有し、コピーごとにクラスタリングを因子分解することで達成される。
  • 正規化手順の安全性は、係数に基づくネットゲイン解析により証明され、下位から上位への処理中にいかなるサブプリズム構成も総合的なDCコストを低下させないことが示された。
  • 本稿では、コ・バイパクトグラフとC6が最小良好であることが同定され、このような構造的性質はまれであるが、複数のコピーの効率的クラスタリングを可能にする十分条件であることが示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。