Skip to main content
QUICK REVIEW

[論文レビュー] Estimating mutual information and multi--information in large networks

Noam Slonim, Gurinder S. Atwal|ArXiv.org|Feb 3, 2005
Complex Network Analysis Techniques参考文献 2被引用数 46
ひとこと要約

本稿では、サンプルサイズの外挿と適応的ビニングを用いて有限サンプルバイアスを補正することで、大規模ネットワークにおける相互情報と多次元情報のスケーラブルで直接的な推定手法を提示する。この手法により、遺伝子発現、金融市場、消費者データにおける高次依存関係の信頼できる推定が可能となり、多次元情報が二重相関を超えた協同的関係を捉えていることが明らかになった。

ABSTRACT

We address the practical problems of estimating the information relations that characterize large networks. Building on methods developed for analysis of the neural code, we show that reliable estimates of mutual information can be obtained with manageable computational effort. The same methods allow estimation of higher order, multi--information terms. These ideas are illustrated by analyses of gene expression, financial markets, and consumer preferences. In each case, information theoretic measures correlate with independent, intuitive measures of the underlying structures in the system.

研究の動機と目的

  • 限られたデータで大規模ネットワークにおける相互情報および多次元情報の信頼できる推定という実用的課題に取り組む。
  • 神経コード分野でこれまで用いられてきた直接推定法を、遺伝子調節ネットワークなどの高次元系に拡張する。
  • 可逆変換に対して情報理論的不変性を保つ、自動的かつ頑健な有限サンプル補正手法を開発する。
  • 多次元情報が二重相関のみでは捉えきれない高次依存関係を捉えられることを示す。
  • ゲノム、金融市場、消費者嗜好の多様な分野において手法を検証し、直感的な構造的特徴と相関することを示す。

提案手法

  • アンサンブル平均をエルゴード性のもとでの時間平均に置き換えることで、サンプリングバイアスを低減する直接推定法を用いる。
  • サンプルサイズの外挿を適用し、無限サンプルにおける相互情報の推定値を得る。有限サンプルバイアスの補正には $ I_{\text{est}}(b,N) = I_\infty(b) + A(b)/N + \cdots $ を用いる。
  • 等頻度ビニングを用いる適応的ビニングを採用し、座標不変性を維持するとともに、任意の量子化を回避する。
  • シャッフルされたデータを用いて臨界ビン数 $ b^* $ を定義し、有限サンプル効果が支配的になるまでの信頼できる推定の上限を特定する。
  • 同じ外挿およびビニングの原則を用いて、トリプレット情報 $ I_3 $ などの多次元情報(例:三重情報)へとフレームワークを拡張する。
  • 推定された情報値を非特異的ランダムペア/トリプレットと比較することで、統計的有意性を評価し、結果を検証する。

実験結果

リサーチクエスチョン

  • RQ1限られたデータで大規模ネットワークにおける相互情報の信頼できる推定が、実用的でスケーラブルな手法によって可能になるか?
  • RQ2独立性や特定の分布形を仮定せずに、情報推定における有限サンプルバイアスをどのように補正できるか?
  • RQ3高次元の多次元情報項(例:三重情報)は、二重相関情報では捉えきれない協同的依存関係をどの程度明らかにするか?
  • RQ4提案手法は、情報理論的シグネイチャに基づいて、遺伝子発現データにおける生物学的に意味のあるモジュールを同定できるか?
  • RQ5ファイナンスおよび消費者嗜好ネットワークにおいて、情報理論的測度は直感的な構造的特徴と相関するか?

主な発見

  • サンプルサイズの外挿を用いた直接推定法により、高次元系においても信頼できる相互情報推定が可能であり、$ b^* $ が信頼できるビニングの実用的上限として機能することが示された。
  • イースト酵母の遺伝子発現データにおいて、「tRNAアミノ酸化」モジュールが平均三重情報 $ \langle I_3 \rangle $ が最も高く、その遺伝子間に強い協同的調節が存在することが示された。
  • 細胞周期に関連する「ベイド成長」モジュールは $ \langle I_3 \rangle $ が最低であり、集団的調節が弱いことが示唆された。
  • 「tRNAアミノ酸化」モジュールでは、三重情報の値がランダムなトリプレットよりも顕著に高く、モジュールの接続性が高くなるほど三重情報と二重情報の差が拡大した。
  • 本手法は、情報理論的シグネイチャに基づいて、既知の生物学的アノテーションと相関する、明確な機能的モジュールを遺伝子発現データから同定できた。
  • 多次元情報の値は、高次依存関係の大部分が二重関係では説明できないことを示しており、調節ネットワークにおける協同的性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。