Skip to main content
QUICK REVIEW

[論文レビュー] Spatio-temporal convolutional neural networks explain human neural representations of action recognition

Andrea Tacchetti, Leyla Işık|arXiv (Cornell University)|Jun 15, 2016
Face Recognition and Perception参考文献 21被引用数 6
ひとこと要約

本研究では、時空間畳み込みニューラルネットワーク(ST-CNNs)が動画刺激における行動の分類を正確に行えること、およびその不変行動認識性能を向上させるための変更が、人間のfMRI記録と密接に一致する神経表現を生成することを示している。これらの発見は、不変識別が人間の視覚皮質表現の形成を駆動するという仮説を支持する。

ABSTRACT

Recognizing the actions of others from visual stimuli is a crucial aspect of human visual perception that allows individuals to respond to social cues. Humans are able to identify similar behaviors and discriminate between distinct actions despite transformations, like changes in viewpoint or actor, that substantially alter the visual appearance of a scene. This ability to generalize across complex transformations is a hallmark of human visual intelligence. Advances in understanding motion perception at the neural level have not always translated in precise accounts of the computational principles underlying what representation our visual cortex evolved or learned to compute. Here we test the hypothesis that invariant action discrimination might fill this gap. Recently, the study of artificial systems for static object perception has produced models, CNNs, that achieve human level performance in complex discriminative tasks. Within this class of models, architectures that better support invariant object recognition also produce image representations that match those implied by human and primate neural data. However, whether these models produce representations of action sequences that support recognition across complex transformations and closely follow neural representations remains unknown. Here we show that spatiotemporal CNNs appropriately categorize video stimuli into actions, and that deliberate model modifications that improve performance on an invariant action recognition task lead to data representations that better match human neural recordings. Our results support our hypothesis that performance on invariant discrimination dictates the neural representations of actions computed by human visual cortex.

研究の動機と目的

  • 複雑な視覚的変換下でも、深層学習モデルが人間の神経表現を再現できるかどうかを調査すること。
  • 不変行動認識を最適化したモデルが、人間のfMRIデータと一致する表現を生成するかどうかを特定すること。
  • 不変識別が人間の視覚皮質が計算する神経表現の形成を主因とするという仮説を検証すること。
  • 動的行動認識の分野において、人工的モデルと生物学的神経データの間のギャップを埋めること。

提案手法

  • 視点や被験者による変化に耐性を持つ行動認識を目的とした、動画データセット上で時空間畳み込みニューラルネットワーク(ST-CNNs)を訓練すること。
  • 時間的モデリングや空間プーリング機構を含む、行動認識における不変性を向上させるためのアーキテクチャ的変更を適用すること。
  • 訓練済みST-CNNsから特徴表現を抽出し、表現類似性分析(RSA)を用いて人間のfMRI記録と比較すること。
  • 不変行動認識タスクにおけるモデルのパフォーマンスを評価し、行動的パフォーマンスと神経類似性の相関を調査すること。
  • 多ボクセルパターン分析(MVPA)を用いて、モデルの表現が人間の行動刺激に対する神経応答をどの程度正確に予測できるかを評価すること。

実験結果

リサーチクエスチョン

  • RQ1時空間CNNは、fMRIで記録された人間の神経活動パターンと一致する行動の表現を生成するか?
  • RQ2視点や被験者による変化に対して不変性を向上させたモデルの性能向上が、人間の神経表現との整合性を高めるか?
  • RQ3不変行動認識パフォーマンスと人間の視覚皮質表現の構造の間に因果関係があるか?
  • RQ4不変行動認識を目的として訓練された人工ニューラルネットワークは、人間の視覚知能の計算的モデルとして機能できるか?

主な発見

  • 時空間CNNは、高い正確性で動画刺激を明確な行動に分類することができた。
  • 不変行動認識タスクにおけるパフォーマンスを向上させるためのモデルの変更が、人間のfMRIデータとより密接に一致する表現を生成した。
  • モデルの特徴と人間の神経応答との間の表現類似性の度合いは、不変認識パフォーマンスの向上に伴って増加した。
  • 人間の視覚皮質における神経表現は、複雑な変換に一般化する必要から形成されており、最もパフォーマンスの良いモデルの不変性特性と整合的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。