QUICK REVIEW

[論文レビュー] Deep Predictive Learning: A Comprehensive Model of Three Visual Streams

Randall C. O’Reilly, Dean Wyatte|arXiv (Cornell University)|Sep 14, 2017

Neural dynamics and brain function参考文献 235被引用数 31

ひとこと要約

本論文は、100 msのアルファリズム（100 ms）予測誤差を用いて、三つの視覚ストリーム—What、Where、What*Where—にわたるシナプス可塑性を駆動する生物学的に根拠のある深層予測学習モデルを提案する。これにより、受動的な視覚経験からの自己組織的不変オブジェクト表現が可能になる。後頭内側側柱は予測投影スクリーンとして機能し、層6皮質下垂体フィードバックが予測を生成し、時間差信号が生物物理学的原則に基づく局所活性化ルールを介して誤差ベース学習を駆動する。

ABSTRACT

How does the neocortex learn and develop the foundations of all our high-level cognitive abilities? We present a comprehensive framework spanning biological, computational, and cognitive levels, with a clear theoretical continuity between levels, providing a coherent answer directly supported by extensive data at each level. Learning is based on making predictions about what the senses will report at 100 msec (alpha frequency) intervals, and adapting synaptic weights to improve prediction accuracy. The pulvinar nucleus of the thalamus serves as a projection screen upon which predictions are generated, through deep-layer 6 corticothalamic inputs from multiple brain areas and levels of abstraction. The sparse driving inputs from layer 5 intrinsic bursting neurons provide the target signal, and the temporal difference between it and the prediction reverberates throughout the cortex, driving synaptic changes that approximate error backpropagation, using only local activation signals in equations derived directly from a detailed biophysical model. In vision, predictive learning requires a carefully-organized developmental progression and anatomical organization of three pathways (What, Where, and What * Where), according to two central principles: top-down input from compact, high-level, abstract representations is essential for accurate prediction of low-level sensory inputs; and the collective, low-level prediction error must be progressively and opportunistically partitioned to enable extraction of separable factors that drive the learning of further high-level abstractions. Our model self-organized systematic invariant object representations of 100 different objects from simple movies, accounts for a wide range of data, and makes many testable predictions.

研究の動機と目的

生物学的、計算的、認知的レベルの視覚学習を結びつける統一的で生物学的に制約のあるフレームワークの構築を目的とする。
明示的なラベルや教師なし条件下で、受動的な感覚経験から不変オブジェクト表現がどのように生成されるかを説明することを目的とする。
100 msのアルファリズム予測誤差に基づく予測学習が、高次視覚的抽象化の発展を駆動できることを示すこと。
後頭側（Where）、腹側（What）、および提案されたWhat*Whereストリームを統合した予測学習アーキテクチャに統合すること。
新皮質学習が知覚的・認知的発達をどのように支援するか、検証可能で機構的な説明を提供すること。

提案手法

モデルは、100 ms（アルファ周波数）の時間窓を用いて予測学習を実行し、層6皮質下垂体フィードバックによる予測を毎サイクル生成する。
後頭内側側柱核は、複数の皮質領域からの予測が統合され、感覚入力と比較される、脳内「投影スクリーン」として機能する。
予測誤差は、スパarsな内在的バースト層5入力（ターゲット信号）と後頭内側側柱予測信号との間の時間差として計算される。
シナプス可塑性は、皮質微小回路の詳細な生物物理学的モデルから導かれた局所活性化信号によって駆動され、誤差逆伝播に類似した動作を示す。
モデルは、低レベルの予測誤差を段階的に分離し、分離可能な高次抽象化（例：オブジェクト識別、位置、運動）を抽出する階層的で段階的な分割を実装する。
発達的進行性がアーキテクチャに埋め込まれており、高次のコンパクトな表現が低レベルの感覚入力の正確な予測を導く。

実験結果

リサーチクエスチョン

RQ1新皮質は、明示的なカテゴリーラベルなしに、受動的な視覚経験から不変オブジェクト表現をどのように学習するのか？
RQ2後頭内側側柱は、視覚ストリームを横断して予測符号化をどのように媒介するのか？
RQ3高次の表現からの上位から下位への予測が、低レベルの感覚入力の正確な予測をどのように可能にするのか？
RQ4アルファリズムのタイミングに基づく時間差信号は、生物学的に妥当な方法でシナプス可塑性を駆動できるか？
RQ5後頭側（Where）、腹側（What）、および統合されたWhat*Where経路は、予測学習を通じてどのように共に発達するのか？

主な発見

モデルは、ランダムな運動とスキャツァーを伴うシンプルな映像から、100種類の異なるオブジェクトについて、体系的で不変の表現を自己組織的に学習した。
後頭内側側柱核は、100 msごとに複数の皮質領域からの予測を統合する予測投影スクリーンとして効果的に機能した。
ターゲット入力と予測との間の時間差として計算される予測誤差信号が、局所信号のみを用いて誤差逆伝播に類似したシナプス可塑性を駆動した。
モデルは、LIP、MT、MST、IT皮質の機能的役割を含む、視覚処理に関する広範な実験的データを説明できた。
分離可能な要因（例：オブジェクト識別 vs. 位置）が、集団的予測誤差から段階的に抽出されることを説明できた。
モデルは、層6皮質下垂体フィードバックが予測を生成する役割を果たすなど、多数の検証可能な予測を提示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。