QUICK REVIEW

[論文レビュー] Deep Neural Networks predict Hierarchical Spatio-temporal Cortical Dynamics of Human Visual Object Recognition

Radoslaw Martin Cichy, Aditya Khosla|arXiv (Cornell University)|Jan 12, 2016

Visual perception and processing mechanisms参考文献 47被引用数 46

ひとこと要約

本研究では、現実世界の物体分類タスクで学習された深層ニューラルネットワーク（DNN）が、人間の視覚的物体認識の階層的で時空間的ダイナミクスを正確に予測することを示している。MEGとfMRIのデータを用いて、DNNの表現が時間的（初期から遅延処理段階まで）および空間的（腹側および背側ストリームにわたる）に脳の反応をよく模倣していることが示され、性能はアーキテクチャそのものよりも現実世界の学習に依存していることがわかった。

ABSTRACT

The complex multi-stage architecture of cortical visual pathways provides the neural basis for efficient visual object recognition in humans. However, the stage-wise computations therein remain poorly understood. Here, we compared temporal (magnetoencephalography) and spatial (functional MRI) visual brain representations with representations in an artificial deep neural network (DNN) tuned to the statistics of real-world visual recognition. We showed that the DNN captured the stages of human visual processing in both time and space from early visual areas towards the dorsal and ventral streams. Further investigation of crucial DNN parameters revealed that while model architecture was important, training on real-world categorization was necessary to enforce spatio-temporal hierarchical relationships with the brain. Together our results provide an algorithmically informed view on the spatio-temporal dynamics of visual object recognition in the human visual brain.

研究の動機と目的

深層ニューラルネットワーク（DNN）を計算的フレームワークとして用いて、人間の視覚的物体認識の時空間的ダイナミクスをモデル化すること。
DNNの表現が、MEGによる測定で得られた時間的側面（時間的経過）とfMRIによる測定で得られた空間的側面（脳領域の分布）において、実際に観測された人間の脳の反応と一致するかどうかを検証すること。
DNNと人間の脳との類似性を最も強く左右する要因（アーキテクチャ、学習手順、タスク）を特定すること。
視覚的表現が人間の皮質で物体認識の過程でどのように段階的に形成されるかを、アルゴリズム的根拠に基づいた定量的説明を提供すること。
代表的類似性解析（RSA）を用いて、人工ニューラルネットワークと人間の皮質処理の間で直接的かつデータ駆動型の比較を確立すること。

提案手法

バックプロパゲーションを用いてImageNet 2012の物体分類データセットで8層の深層ニューラルネットワーク（DNN）を学習させ、保留された118枚の画像テストセットで人間水準の性能を達成した。
代表的類似性解析（RSA）を用いて、fMRIおよびMEGデータとDNNの各層の表現を比較し、代表的不類似行列（RDM）間のスピアマンの順位相関を計算した。
画像提示から100ms前から1000ms後までのミリ秒分解像解像度でMEGデータを取得し、センサーレベルのパターンデコードを用いて時系列に解像したRDMを生成した。
fMRIデータに対して空間的に偏りのないサーチライト解析を適用し、全脳にわたる局所的なfMRI RDMとDNN層のRDMとの類似性（スピアマンのρ）を計算した。
MEGセンサーパattersからの画像カテゴリのデコードに、100分割交差検証とランダムサブサンプリング（k=5）を用いた線形サポートベクターマシン（SVM）を用い、デコード精度行列を生成した。
統計的推論には、符号順列検定（10,000回の順列）、クラスターサイズの推論（空間的・時間的クラスタ用）、およびブートストラップ法（1,000回の再サンプリング）を用いて標準誤差を推定した。

実験結果

リサーチクエスチョン

RQ1現実世界の画像認識タスクで学習された深層ニューラルネットワーク（DNN）は、人間の視覚的物体認識の階層的で時空間的ダイナミクスを再現できるか？
RQ2MEGで測定された人間の脳の反応と比較して、DNNの表現の時間的ダイナミクスはどのように異なるか？
RQ3fMRIで測定された人間の脳の活動パターン（腹側および背側ストリームにわたる）と、DNNの表現はどの程度一致するか？
RQ4DNNと人間の脳の表現との一致を最も強く左右する要因は、モデルアーキテクチャ、学習手順、それともタスクか？
RQ5DNNは、視覚的物体認識における皮質処理を予測可能で、アルゴリズム的根拠を持つモデルとして機能できるか？

主な発見

DNNは118枚の現実世界の物体画像セットで94％のトップ5精度を達成し、人間水準の性能を示した。
MEGベースのRSAにより、DNNの表現が時間的順序で連続的に出現することが明らかになった。初期層は初期視覚反応と一致し、より深い層は後続の皮質処理段階と一致した。
fMRIベースのRSAにより、DNNの各層が段階的に腹側および背側視覚経路の表現と一致し、特に高層のDNN層が頭頂野および側頭連合野と一致した。
DNNと脳との空間的類似性は、アーキテクチャや事前学習のみではなく、現実世界の分類タスクで学習された場合に最も強かった。
DNN層のRDMと脳のRDMとのスピアマンの相関は、複数の脳領域および時間点で有意水準（p < 0.05、補正済み）に達し、系統的な一致が確認された。
順列検定およびブートストラップ法による統計的妥当性評価により、被験者および条件にわたるDNNと脳との類似性が強く、信頼性が高いことが裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。