QUICK REVIEW

[論文レビュー] Bayesian Group Factor Analysis

Seppo Virtanen, Arto Klami|arXiv (Cornell University)|Oct 14, 2011

Bioinformatics and Genomic Networks参考文献 18被引用数 72

ひとこと要約

本稿では、複数のデータセット（ビュー）間で共有される潜在要因を同定する、新たな要因分析モデルであるベイジアングループ要因分析（GFA）を提案する。このモデルは個々の変数ではなく、データセット全体の依存関係をモデル化する。要因負荷にグループワイドなスパarsityを課すことにより、ベイジアンフレームワーク内で共有された変動（ビュー間）とビュー固有のノイズを分離し、fMRIおよび薬物応答データにおいて生物学的・神経科学的に意味のあるパターンを効果的に同定した。

ABSTRACT

We introduce a factor analysis model that summarizes the dependencies between observed variable groups, instead of dependencies between individual variables as standard factor analysis does. A group may correspond to one view of the same set of objects, one of many data sets tied by co-occurrence, or a set of alternative variables collected from statistics tables to measure one property of interest. We show that by assuming group-wise sparse factors, active in a subset of the sets, the variation can be decomposed into factors explaining relationships between the sets and factors explaining away set-specific variation. We formulate the assumptions in a Bayesian model which provides the factors, and apply the model to two data analysis tasks, in neuroimaging and chemical systems biology.

研究の動機と目的

標準的な要因分析は個々の変数間の依存関係をモデル化するが、本稿ではそれをデータセット全体（ビュー）間の依存関係に拡張することを目的とする。
複数のデータセット間で共有される要因と、個々のデータセット固有の要因を区別できる手法の開発を目的とし、特に高次元でマルチビューなデータに対して有効であることを目指す。
解釈可能で構造的な複数ソースデータの分解を可能にする、ベイジアンでグループワイドなスパース要因分析モデルの提供を目的とする。
実世界の神経画像法およびシステム生物学データを用いてモデルを検証し、生物学的・神経科学的に関連のある潜在構造を同定できる能力を示すこと。

提案手法

2つのビューに限定されたスパースベイジアン偏相関分析（CCA）を複数のビューへ拡張し、グループワイドなスパarsityを備えたマルチビュー要因分析を可能にする。
すべてのデータセットを連結した結合データをモデル化し、各要因の重みが関与しないデータセット全体に対してゼロとなるグループワイドなスパarsityを要因負荷に適用する。
要因、負荷、ハイパーパrameterの事後分布を近似するための変分ベイジアン推論アプローチを採用し、スケーラブルな推論を実現する。
各データセット内でPCAに基づくノイズモデルを採用し、セット固有の変動を明示的に扱うことで、要因がセット間依存関係に集中するようにする。
グループワイドなスパarsity事前分布（例：階層ラプラス分布やスパイクアンドスラブ）を用い、要因が一部のデータセットでのみ活性化されるよう促進する。
薬物応答解析において、化学的ビューにおける重みのノルムで要因を事前に並べ替え、化学空間の情報量に関する事前知識を活用し、有益な要因を優先する。

実験結果

リサーチクエスチョン

RQ1ベイジアン要因分析モデルは、複数のデータセット間で共有される潜在的要因を効果的に同定できるか、かつそれらをビュー固有の変動から区別できるか？
RQ2要因負荷におけるグループワイドなスパarsityは、シミュレーションおよび実世界のデータにおいて、真のデータセット間依存関係をどれほど正確に回復できるか？
RQ3fMRIや薬物応答データなど、複雑なマルチソースデータにおいて、生物学的・神経科学的に解釈可能な要因をどれほど同定できるか？
RQ4GFAを用いて複数のデータソースを統合することで、個々のビューを用いる場合と比較して、薬物類似度検索などの後続タスクの性能が向上するか？

主な発見

ベイジアンGFAモデルは、fMRIデータにおいて音声活動パターンといった、音楽的および歌詞の朗読条件の両方で活性化される要因といった、データセットのサブセット間で共有される要因を効果的に同定した。
薬物応答解析において、すべての細胞線で共有される要因が強く毒性反応（細胞周期停止やアポトーシス）と相関しており、既知の生物学的メカニズムと整合的であることが明らかになった。
化学的記述子と1つの細胞線で共有される要因は、炎症反応関連遺伝子を活性化し、イブプロフェンなどのNSAIDsに対して顕著に活性化されることが分かった。これは既存の薬理学的知識と一致している。
GFAに基づく潜在空間における薬物表現は、個々のビュー（生物学的または化学的）に基づく表現よりも顕著に優れており、t検定によるp値 < 0.05の有意差を示した。
シミュレーションデータを用いた検証により、多数のデータセットを含む状況でも、正しいスパarsity構造を高い正確性で検出できることが確認された。
変分推論アプローチは計算的に効率的で、数千件のサンプルおよび複数の高次元ビューを含むデータセットに対してもスケーラブルであることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。