[論文レビュー] Multimodal neural networks better explain multivoxel patterns in the hippocampus
本研究では、CLIPのようなマルチモーダルニューラルネットワークが、単モーダル(視覚的または言語的)モデルと比較して、ヒトの海馬におけるfMRIのマルチボクセル活性化パターンをよりよく説明できるかを調査している。代表的類似性分析(RSA)を用いて、著者らはマルチモーダルモデルが海馬の活性化を著しく上回ることを示しており、マルチモーダルネットワークはノイズの上限に達している——つまり、脳応答における説明可能な分散をすべて説明していることを示している。
The human hippocampus possesses "concept cells", neurons that fire when presented with stimuli belonging to a specific concept, regardless of the modality. Recently, similar concept cells were discovered in a multimodal network called CLIP (Radford et at., 2021). Here, we ask whether CLIP can explain the fMRI activity of the human hippocampus better than a purely visual (or linguistic) model. We extend our analysis to a range of publicly available uni- and multi-modal models. We demonstrate that "multimodality" stands out as a key component when assessing the ability of a network to explain the multivoxel activity in the hippocampus.
研究の動機と目的
- マルチモーダルニューラルネットワークが、ヒトの海馬におけるfMRIのマルチボクセル活性化パターンを、単モーダルモデル(視覚的または言語的)と比較してより効果的に説明できるかどうかを明らかにすること。
- 特に「概念細胞」と関連する領域において、マルチモーダル性が脳表象をモデル化する役割を果たすかどうかを調査すること。
- 視覚と言語の複数の感覚モalityで訓練されたモデルが、純粋に視覚的または言語的モデルと比較して、海馬の表象構造をよりよく捉えられるかどうかを評価すること。
- 代表的類似性分析(RSA)におけるボクセル選択法や距離尺度の違いに対して、これらの結果がどれほど頑健であるかを評価すること。
提案手法
- fMRIデータとディープニューラルネットワークの活性化から得られる代表的類似性行列(RDM)を比較するために、代表的類似性分析(RSA)を適用した。
- 脳領域およびモデル空間における刺激間の代表的類似性を測定するために、ピアソン相関距離(1 - 相関)を用いてRDMを作成した。
- SPM12を用いた前処理およびGLM解析により、5名の被験者がImageNetの画像を視認した際のfMRIデータ(公に提供されたもの)を取得した。
- モデル間および領域間の比較を可能にするために、RSA値をノイズの上限で正規化し、モデルと脳の類似性推定値の信頼性を確保した。
- 訓練目的およびモダリティに基づいて、モデルを3つのカテゴリーに分類した——視覚的、言語的、マルチモーダル。
- ボクセル選択基準の変化に伴う結果の頑健性をテストするために、ボクセルの選択数(β値のしきい値に基づく)を変更したコントロール分析を実施した。
実験結果
リサーチクエスチョン
- RQ1マルチモーダルニューラルネットワークは、単モーダルの視覚的または言語的モデルと比較して、ヒトの海馬におけるfMRI活性化パターンをよりよく説明できるか?
- RQ2モデルのマルチモーダル性が、海馬のマルチボクセルパターンを説明する上で重要な要因であるか?
- RQ3特に海馬および側 occipitotemporal回(fusiform gyrus)において、マルチモーダルモデルと単モーダルモデルの性能はどのように比較されるか?
- RQ4ボクセル選択やRSAにおける距離尺度の変化に対して、観察された結果は頑健であるか?
主な発見
- マルチモーダルモデル、特にCLIPは、海馬におけるfMRI活性化を、視覚的および言語的モデルと比較して著しく優れて説明していた(ウェルチのt検定、p < 0.05)。
- マルチモーダルネットワークは海馬でノイズの上限に達しており、脳応答における説明可能な分散をすべて説明していることを示しており、これは他のモデルグループや脳領域では観察されなかった結果である。
- マルチモーダルモデルの性能優位性は、さまざまなボクセル選択しきい値において一貫しており、結果の頑健性が確認された。
- 側頭頭頂回(fusiform gyrus)でも同様の傾向が見られたが、やや弱く、マルチモーダルモデルが単モーダルモデルを上回ったが、RSA値は低く、ばらつきが大きかった。
- 代替の距離尺度に対しても結果は頑健であり、付録で確認された。これにより、ピアソン相関距離の選択の妥当性が裏付けられた。
- 視覚的および視覚言語モデルは、刺激の視覚的性質を考慮すると、予想通り純粋な言語的モデルよりも優れていた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。