Skip to main content
QUICK REVIEW

[論文レビュー] Valid Two-Sample Graph Testing via Optimal Transport Procrustes and Multiscale Graph Correlation with Applications in Connectomics

Jaewon Chung, Bijan Varjavand|arXiv (Cornell University)|Nov 6, 2019
Functional Brain Connectivity Studies参考文献 25被引用数 5
ひとこと要約

本稿では、最適輸送プロクラステス(OTP)を用いた潜在位置の整合化と、マルチスケールグラフ相関(MGC)を用いた検定による、ロバストな2標本グラフ検定フレームワークを提案する。従来の手法に比べ、統計的妥当性と検出力が著しく向上する。ドーパミンのマウスバレー接続体に適用した結果、左右の側頭半球間に有意差は認められず、OTPは中央値フリップによる整合化の不正しさを解消し、MGCはDCorrを上回る検出力を示した。

ABSTRACT

Testing whether two graphs come from the same distribution is of interest in many real world scenarios, including brain network analysis. Under the random dot product graph model, the nonparametric hypothesis testing frame-work consists of embedding the graphs using the adjacency spectral embedding (ASE), followed by aligning the embeddings using the median flip heuristic, and finally applying the nonparametric maximum mean discrepancy(MMD) test to obtain a p-value. Using synthetic data generated from Drosophila brain networks, we show that the median flip heuristic results in an invalid test, and demonstrate that optimal transport Procrustes (OTP) for alignment resolves the invalidity. We further demonstrate that substituting the MMD test with multiscale graph correlation(MGC) test leads to a more powerful test both in synthetic and in simulated data. Lastly, we apply this powerful test to the right and left hemispheres of the larval Drosophila mushroom body brain networks, and conclude that there is not sufficient evidence to reject the null hypothesis that the two hemispheres are equally distributed.

研究の動機と目的

  • ランダムドット積集合グラフモデルにおける潜在位置の整合化の非同定性が原因で生じる、ネットワーク解析における仮説検定の不正しさという問題に取り組む。
  • 2標本グラフ検定における統計的検出力と妥当性を向上させるために、中央値フリップの代わりに最適輸送プロクラステス(OTP)を用いた整合化を導入する。
  • 最大平均差分(MMD)の代わりにマルチスケールグラフ相関(MGC)を検定統計量として採用することで、検定性能を向上させる。
  • 提示されたフレームワークを合成データおよびドーパミンのララルマウスバレーの実際の接続体データに対して検証する。

提案手法

  • 2つのグラフの隣接行列から、隣接スペクトル埋め込み(ASE)を用いて潜在位置を推定する。
  • 推定された潜在位置を最適輸送プロクラステス(OTP)を用いて整合化し、直交的非同定性の問題を解消する。
  • 標準的なMMD検定の代わりに、依存性検出に最適なスケールを自動的に選択するマルチスケールグラフ相関(MGC)を採用する。
  • 整合化された潜在位置に対してMGCを用いて2標本検定を実施し、母集団分布が等価かどうかを評価する。
  • 独立性検定(DCorr や MGC)を2標本検定に適応させるために、k標本変換を用いる。
  • タイプIエラーの制御と、さまざまなグラフサイズおよび効果量における統計的検出力を評価する。

実験結果

リサーチクエスチョン

  • RQ1RDPGモデル下で潜在位置の整合化に中央値フリップヒューリスティックを用いる場合、2標本グラフ検定は妥当であるか?
  • RQ2最適輸送プロクラステス(OTP)は、中央値フリップによる不正しさを解消できるか?
  • RQ3マルチスケールグラフ相関(MGC)は、距離相関(DCorr)やMMDに比べ、グラフの潜在分布の差を検出する際により高い検出力を持つのか?
  • RQ4ドーパミンのララルマウスバレーの神経回路において、左右の側頭半球の接続構造の母集団分布は統計的に同等であるか?

主な発見

  • 中央値フリップヒューリスティックは、タイプIエラーが名目水準α = 0.05を上回り、特に真の差が存在しない場合にグラフサイズが大きくなると増加するという、不正な検定をもたらす。
  • 最適輸送プロクラステス(OTP)は、中央値フリップの不正しさを効果的に解消し、すべてのテストされたグラフサイズで適切なタイプIエラー制御を維持する。
  • マルチスケールグラフ相関(MGC)は、合成データおよびシミュレーションデータの両方において、DCorr や MMD よりも顕著に高い統計的検出力を示す。特に中程度から大きな効果量の条件下で顕著である。
  • ドーパミンのララルマウスバレーに適用した結果、MGC+OTPはp値0.986(ˆd=1)から0.952(ˆd=5)を示し、左右半球間の分布が等しいという帰無仮説を棄却しない。
  • 中央値フリップは、高次元の潜在空間(例:ˆd=3)で誤った整合化を引き起こし、p値が0.001まで低下する偽陽性を生じるが、OTPは適切な整合化を維持し、妥当な推論を可能にする。
  • OTPによる整合化後の埋め込みの可視化では、すべての次元で一貫した分布的類似性が観察される。一方、中央値フリップは特に左側頭半球で次元3に誤った整合化を引き起こす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。