QUICK REVIEW

[論文レビュー] Pixels to Voxels: Modeling Visual Representation in the Human Brain

Pulkit Agrawal, Dustin Stansbury|arXiv (Cornell University)|Jul 18, 2014

Visual Attention and Saliency Detection参考文献 20被引用数 76

ひとこと要約

本論文は、手動でアノテートされた意味的ラベルに依存せずに、画像のピクセルから直接視覚皮質内の脳活動を予測する画期的なフレームワークを提案する。Fisherベクトルと畳み込みニューラルネットワーク（ConvNets）を用いて、初期、中程度、高レベルの視覚領域において正確にfMRI反応を予測することに成功し、外側側頭体領域（EBA）内に機能的サブ領域が存在することを明らかにした。

ABSTRACT

The human brain is adept at solving difficult high-level visual processing problems such as image interpretation and object recognition in natural scenes. Over the past few years neuroscientists have made remarkable progress in understanding how the human brain represents categories of objects and actions in natural scenes. However, all current models of high-level human vision operate on hand annotated images in which the objects and actions have been assigned semantic tags by a human operator. No current models can account for high-level visual function directly in terms of low-level visual input (i.e., pixels). To overcome this fundamental limitation we sought to develop a new class of models that can predict human brain activity directly from low-level visual input (i.e., pixels). We explored two classes of models drawn from computer vision and machine learning. The first class of models was based on Fisher Vectors (FV) and the second was based on Convolutional Neural Networks (ConvNets). We find that both classes of models accurately predict brain activity in high-level visual areas, directly from pixels and without the need for any semantic tags or hand annotation of images. This is the first time that such a mapping has been obtained. The fit models provide a new platform for exploring the functional principles of human vision, and they show that modern methods of computer vision and machine learning provide important tools for characterizing brain function.

研究の動機と目的

低レベルの視覚入力（ピクセル）から直接人間の視覚皮質活動を予測する計算モデルを開発すること。
画像カテゴリの主観的で時間のかかる人によるアノテーションに依存する従来の符号化モデルの限界を克服すること。
現代のコンピュータビジョン特徴量（FisherベクトルとConvNets）が、皮質階層全体における人間の視覚系の機能的組織を捉えられるかを調査すること。
外側側頭体領域（EBA）のような既存の視覚領域のROI内で、細粒度の機能的組織を探索すること。

提案手法

ローカル画像記述子（例：SIFT）のFisherベクトル（FV）符号化を用いて、生のピクセル入力から高次元で判別性の高い特徴量を生成した。
同じピクセル入力から階層的で階層的な特徴表現を抽出するために、事前に訓練された畳み込みニューラルネットワーク（ConvNet）を用いた。
FVおよびConvNet特徴量を視覚皮質のfMRIボクセル応答にマップするために正則化線形回帰を適用し、ボクセルごとに1つのモデルを適合させた。
適合したモデルを用いて、未知の画像に対する脳活動を予測し、説明平方和（R²）を用いて性能を評価した。
EBA内のボクセルにおけるConvNetモデル重みをK-meansクラスタリングすることで、機能的に異なるボクセル集団を同定した。
機能的クラスタを皮質フラットマップに投影し、空間的分離性を評価し、被験者間で一貫した解剖学的整合性を検証した。

実験結果

リサーチクエスチョン

RQ1意味的ラベルなしにピクセルレベルの特徴量のみで訓練されたモデルが、手動でアノテートされたラベルを用いたモデルと同等の精度で、人間視覚皮質のfMRI応答を予測できるか？
RQ2FisherベクトルとConvNet特徴量は、人間の脳活動パターンと整合する低レベルおよび高レベルの視覚表現を捉えられるか？
RQ3符号化モデルは、EBAのような古典的視覚ROI内に、機能的サブ構造を明らかにできるか？
RQ4EBA内に同定された機能的クラスタは空間的に一貫しており、被験者間で一貫性を示すか？
RQ5クラスタ内ConvNetモデルは、他のクラスタで訓練されたモデルよりも、その対応するボクセルクラスタの活動を顕著に良く予測できるか？

主な発見

Fisherベクトル（FV）およびConvNetモデルは、手動でアノテートされた意味的特徴に基づく従来のモデルと同等の説明平方和（R²）で、高レベル視覚領域のfMRI応答を予測できた。
FVおよびConvNetモデルは、高レベル領域だけでなく、初期および中程度の視覚領域の脳活動も正確に予測できたが、これは従来の意味的ラベルベースのモデルでは達成できなかった。
ConvNetモデル重みのK-meansクラスタリングにより、EBA内に2つの安定的で機能的に異なるクラスタが同定された：1つは全身の動きに反応し、もう1つは単一の人間に対して反応する。
機能的クラスタは皮質フラットマップ上で空間的に分離しており、2名の被験者間で一貫した解剖学的位置を示した。
クラスタ内ConvNetモデルは、他のクラスタで訓練されたモデルよりも、その対応するボクセルクラスタの分散を顕著に多く説明した（例：被験者1ではC1が24.9%、C2が19.3%；被験者2ではC2が23.0%、C1が16.2%）。
結果から、EBAには視覚刺激への反応特性が異なる機能的かつ空間的に異なる2つのサブ領域が存在することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。