Skip to main content
QUICK REVIEW

[論文レビュー] Normalized Mutual Information to evaluate overlapping community finding algorithms

Aaron F. McDaid, Derek Greene|arXiv (Cornell University)|Oct 11, 2011
Complex Network Analysis Techniques参考文献 3被引用数 229
ひとこと要約

この論文は、重複するコミュニティ検出に広く使われている正規化相互情報量(NMI)測定における直感的でない振る舞いを特定し、元の LFK 正規化の代わりに max(H(X), H(Y)) を用いたより一般的な正規化を提案する。修正された測定値である NMI_max は、類似しないカバーでは 0 に近づき、同一のカバーでは 1 に近づくなど、より直感的な振る舞いを示す。特にクラスタ数に偏りがある場合に顕著で、合成ネットワークを用いた制御実験によって検証されている。

ABSTRACT

Given the increasing popularity of algorithms for overlapping clustering, in particular in social network analysis, quantitative measures are needed to measure the accuracy of a method. Given a set of true clusters, and the set of clusters found by an algorithm, these sets of clusters must be compared to see how similar or different the sets are. A normalized measure is desirable in many contexts, for example assigning a value of 0 where the two sets are totally dissimilar, and 1 where they are identical. A measure based on normalized mutual information, [1], has recently become popular. We demonstrate unintuitive behaviour of this measure, and show how this can be corrected by using a more conventional normalization. We compare the results to that of other measures, such as the Omega index [2].

研究の動機と目的

  • 重複コミュニティ検出アルゴリズムの評価に用いられる、LFK 正規化された相互情報量(NMI_LFK)測定における直感的でない振る舞いを特定し、是正すること。
  • 解釈性と類似スコアの一貫性を向上させるために、max(H(X), H(Y)) に基づくより一般的な正規化戦略を提案すること。
  • NMI_LFK が、予測カバーが真のカバーの部分集合である場合や、すべての部分集合(パワー集合)と比較する場合ですら 0.5 を超えるスコアを示すなど、直感的でない結果を生じることを示し、アルゴリズム評価における信頼性を損なうこと。
  • 合成ネットワークを用いた制御実験を通じて、提案された NMI_max 測定値の改善された振る舞いを検証すること。

提案手法

  • 論文は、クラスタ所属行列から導かれるエントロピーおよび条件付きエントロピー項を用いて、2つのクラスタカバー X と Y 間の相互情報量に基づく類似度測定値を定義する。
  • クラスタベクトルがほぼ補完的である場合に、相互情報量がゼロになるように制約を課すことで、誤った高スコアを防ぐ、修正された条件付きエントロピー H*(X_i|Y_j) を導入する。
  • H(X|Y) は、X の各クラスタ i について、Y のすべてのクラスタ j における H*(X_i|Y_j) の最小値の和として計算され、同様に H(Y|X) も計算される。
  • 相互情報量 I(X:Y) は、2つの定式化の平均値として計算される:[H(X) - H(X|Y) + H(Y) - H(Y|X)] / 2 により一貫性を確保する。
  • 提案された正規化は、元の LFK 分母を max(H(X), H(Y)) に置き換えることで、NMI_max = I(X:Y) / max(H(X), H(Y)) を得る。
  • 手法は C++ で実装され、200 ノードおよび 20 個の非重複クラスタを有する合成ネットワークで評価された。

実験結果

リサーチクエスチョン

  • RQ1なぜ LFK 正規化された相互情報量(NMI_LFK)は、小さいカバーと大きなカバーを比較する際、小さいカバーが大きいカバーの部分集合である場合ですら、0.5 を超えるスコアを生じるのか?
  • RQ2特に、1 個のクラスタとすべてのクラスタの集合、またはすべての部分集合(パワー集合)のケースにおいて、NMI_LFK の直感的でない振る舞いの根本的原因は何か?
  • RQ3max(H(X), H(Y)) で正規化された提案された NMI_max 測定値は、NMI_LFK と比較して、解釈性と一貫性がどのように向上するのか?
  • RQ4予測カバーのクラスタ数が 1 からすべての真のコミュニティに増加する状況において、NMI_max はより直感的な振る舞いを示すのか?

主な発見

  • NMI_LFK は、1 個のクラスタを 20 個の非重複クラスタの完全なカバーと比較する際、予測カバーが真のカバーの完全な部分集合であるにもかかわらず、わずかに 0.5 を超えるスコアを示す。
  • パワー集合のシナリオでは、1 つのカバーが n 個のノードのすべての空でない部分集合を含むが、NMI_LFK は最小の類似度にもかかわらずわずかに 0.5 を超えるままである。
  • 提案された NMI_max 測定値は、予測カバーが小さい場合にはスコアが 0 に近づき、予測カバーのクラスタ数が真のカバーに一致するよう増加するにつれて 1 に近づく正しい振る舞いを示す。
  • 合成実験において、正しく同定されたコミュニティ数が 1 から 20 に増加するに従い、NMI_max 測定値は 0 から 1 へ直線的で直感的な増加を示す。
  • NMI_LFK の直感的でない振る舞いの原因は、一方のカバーが他方よりもはるかに複雑(=クラスタ数が多い)である場合に、その正規化分母が歪み、スコアの下限が 0.5 に固定されるためである。
  • 本研究は、max(H(X), H(Y)) を用いた一般的な正規化が、重複コミュニティ検出アルゴリズムの評価に向け、より解釈可能で行動的一貫性のある測定値をもたらすことを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。