Skip to main content
QUICK REVIEW

[論文レビュー] Comment on "Detecting Novel Associations In Large Data Sets" by Reshef Et Al, Science Dec 16, 2011

Noah Simon, Robert Tibshirani|arXiv (Cornell University)|Jan 29, 2014
Data-Driven Disease Surveillance参考文献 1被引用数 69
ひとこと要約

この論文は、Reshefら(2011年)が提唱した非線形関係を大規模データセットで検出するための最大情報相関(MIC)手法を検証し、シミュレーションを通じて、さまざまなノイズレベルと従属関係の種類において、MICは距離相関(dcor)およびピアソン相関よりも一貫して低い統計的パワーを示すことを示している—これは、探索的データ分析においてMICが偽陽性を出しやすい可能性を示唆しているが、その一方で等価性(equitability)を主張している。

ABSTRACT

The proposal of Reshef et al. (2011) is an interesting new approach for discovering non-linear dependencies among pairs of measurements in exploratory data mining. However, it has a potentially serious drawback. The authors laud the fact that MIC has no preference for some alternatives over others, but as the authors know, there is no free lunch in Statistics: tests which strive to have high power against all alternatives can have low power in many important situations. To investigate this, we ran simulations to compare the power of MIC to that of standard Pearson correlation and distance correlation (dcor). We simulated pairs of variables with different relationships (most of which were considered by the Reshef et. al.), but with varying levels of noise added. To determine proper cutoffs for testing the independence hypothesis, we simulated independent data with the appropriate marginals. As one can see from the Figure, MIC has lower power than dcor, in every case except the somewhat pathological high-frequency sine wave. MIC is sometimes less powerful than Pearson correlation as well, the linear case being particularly worrisome.

研究の動機と目的

  • 大規模データセットにおける非線形関係を検出することを目的としたMICの統計的パワーを評価すること。
  • MICが主張する等価性が、低統計的パワーという代償を伴うかどうかを調査すること。
  • 制御されたシミュレーション条件下で、ピアソン相関や距離相関(dcor)といった既存の手法と比較してMICのパフォーマンスを評価すること。
  • 偽陽性が問題となる可能性がある大規模な探索的データマイニングにおいて、MICの信頼性を評価すること。

提案手法

  • 統計的パワーを推定するために、各ノイズレベルと従属関係の種類ごとに500個の独立したデータセットをシミュレートした。
  • 公平な比較を確保するため、元の研究(Reshefら)と同一の周辺分布を使用した。
  • 独立性のp値をMIC、ピアソン相関、dcorの各手法で計算し、独立データのシミュレーションから得たカットオフ値を用いた。
  • すべての手法に同一の有意水準を適用することで、第一種の誤り(Type I error)の制御を一貫させた。
  • 線形、2次関係、高周波数の正弦波など8種類の異なる従属構造を評価した。
  • Rを用いて完全なシミュレーションパイプラインを実装し、再現可能性を確保するためコードを公開した。

実験結果

リサーチクエスチョン

  • RQ1MICは、ノイズの増加に伴って多様な非線形関係においても高い統計的パワーを維持するのか?
  • RQ2MICのパワーは、線形および非線形従属関係を検出するにあたり、ピアソン相関や距離相関と比べてどうか?
  • RQ3実用的状況下でMICの低統計的パワーが、その等価性特性を損なうのか?
  • RQ4MICの低パワーが原因で、大規模データマイニングにおいて許容できないほど高い偽陽性率を生じる可能性はあるか?
  • RQ5距離相関は、一般化された関連性検出のためのMICよりもより強固でパワーのある代替手法であるか?

主な発見

  • MICは、高周波数の正弦波を除くすべてのシミュレートされた従属関係の種類において、距離相関(dcor)よりも低い統計的パワーを示した。
  • 線形関係のケースでは、MICはピアソン相関よりもパワーが低く、MICが非線形性を一般化することを目的としている以上、特に懸念される結果であった。
  • dcorのパワー優位性は、すべてのノイズレベルおよび従属構造で一貫しており、より高い感度を示していることがわかった。
  • MICの低パワーは、大規模な探索的データ分析において偽陽性率が許容できないほど高くなる可能性を示唆している。
  • 著者らは、dcorがMICよりもパワーが高く、計算が単純で信頼性も高い、大規模データセットにおける関連性検出の代替手法であると結論づけた。
  • シミュレーション結果から、MICの等価性は、その低い統計的パワーを相殺するものではなく、実用的有用性に制限をもたらすことがわかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。