QUICK REVIEW

[論文レビュー] Generic decoding of seen and imagined objects using hierarchical visual features

Tomoyasu Horikawa, Yukiyasu Kamitani|arXiv (Cornell University)|Oct 22, 2015

Visual Attention and Saliency Detection参考文献 53被引用数 51

ひとこと要約

本論文は、fMRI脳活動および深層畳み込みニューラルネットワーク（CNN）から得られる階層的視覚特徴を用いて、学習データに含まれない物体の視認および想起された物体を識別する汎用的なデコードフレームワークを提示する。皮質領域にわたる複数レベルの視覚特徴とfMRIパターンを一致させることで、分類間をまたがる正確な物体識別が可能となり、心象における視覚表現の上位から下位の脳領域への段階的活性化が明らかになった。

ABSTRACT

Object recognition is a key function in both human and machine vision. While recent studies have achieved fMRI decoding of seen and imagined contents, the prediction is limited to training examples. We present a decoding approach for arbitrary objects, using the machine vision principle that an object category is represented by a set of features rendered invariant through hierarchical processing. We show that visual features including those from a convolutional neural network can be predicted from fMRI patterns and that greater accuracy is achieved for low/high-level features with lower/higher-level visual areas, respectively. Predicted features are used to identify seen/imagined object categories (extending beyond decoder training) from a set of computed features for numerous object images. Furthermore, the decoding of imagined objects reveals progressive recruitment of higher to lower visual representations. Our results demonstrate a homology between human and machine vision and its utility for brain-based information retrieval.

研究の動機と目的

視認および想起された物体の両方について、学習例を超えて一般化可能なデコード手法の開発。
機械視覚モデルから得られる階層的視覚特徴が、複数の物体カテゴリにわたってfMRIパターンを予測できるかどうかの調査。
視覚領域における脳活動と視覚特徴の階層的構造との関係の解明。
想起された物体の表現が、視覚階層の上位から下位への類似した進行を示すかどうかの検証。
各新しいカテゴリごとに再訓練を必要としない、汎用的かつ非特異的なカテゴリデコードを用いた脳ベース情報検索の実現。

提案手法

大規模な物体画像セットに対して、事前学習済み畳み込みニューラルネットワーク（CNN）から階層的視覚特徴を抽出する。
多ボクセルパターン解析（MVPA）を用いて、人間の視覚皮質におけるfMRI活動パターンからこれらの視覚特徴を予測する。
fMRIパターンをCNN階層の異なるレベルの特定の視覚特徴にマッピングする線形デコーダーを訓練する。
訓練済みデコーダーを用いて、fMRIデータに基づき、新しい未学習または想起された物体の特徴を予測する。
予測された特徴を用いて、学習データを超えて拡張されるゼロショットの方法で、物体カテゴリを一般化して分類する。
視覚領域におけるデコード精度の空間的分布を分析し、皮質処理段階との階層的整合性を評価する。

実験結果

リサーチクエスチョン

RQ1fMRIパターンを用いて、学習データに含まれない新しい物体を含め、広範な物体カテゴリにわたる汎用的視覚特徴をデコードできるか？
RQ2視覚階層の異なるレベル（低レベル対高レベル特徴）およびそれに対応する脳領域におけるデコード精度はどのように変化するか？
RQ3物体の心象において、視覚処理の階層に従って、上位から下位の視覚領域へと段階的に活性化が進行するか？
RQ4深層ニューラルネットワークからの階層的視覚特徴と、人間の脳における物体表現との間には、どの程度の整合性があるか？
RQ5このフレームワークは、各カテゴリごとに再訓練を必要とせず、脳活動から一般化された分類間物体識別を可能にするか？

主な発見

本手法は、学習データに含まれない物体に対しても、予測された視覚特徴を用いてfMRIパターンから物体カテゴリを正確にデコードした。
初期視覚領域（例：V1）の活動を用いた場合、低レベル視覚特徴のデコード精度が高く、高レベル視覚領域（例：IT皮質）の活動を用いた場合、高レベル特徴のデコード精度が高かった。
想起された物体のデコード結果から、視覚処理の階層に従って、上位から下位の視覚領域へと段階的な活性化パターンが観察された。
fMRIパターンとCNNからの階層的視覚特徴との整合性は、人間の視覚と機械視覚の表現に強い類似性（同型性）を示した。
本フレームワークは、カテゴリ固有の再訓練を必要とせず、脳活動からの一般化された物体認識を実現し、ゼロショット一般化の有効性を示した。
本研究は、fMRIパターンが視覚特徴の階層的構造を再構築するのに十分な情報を含んでいることを確認し、コンテンツベース情報検索に脳活動を応用することが可能であることを支持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。