QUICK REVIEW

[論文レビュー] Task-Driven Convolutional Recurrent Models of the Visual System

Aran Nayebi, Daniel M. Bear|arXiv (Cornell University)|Jun 20, 2018

Neural dynamics and brain function参考文献 32被引用数 121

ひとこと要約

この論文は局所再発と長距離フィードバックをCNNに統合してConvRNNを形成し、ハイパーパラメータ探索を通じて効果的な局所再発セルを発見し、これらのモデルが深いフィードフォワードネットと同程度のパラメータ数で霊長類の視覚ダイナミクスと一致することを示す。

ABSTRACT

Feed-forward convolutional neural networks (CNNs) are currently state-of-the-art for object classification tasks such as ImageNet. Further, they are quantitatively accurate models of temporally-averaged responses of neurons in the primate brain's visual system. However, biological visual systems have two ubiquitous architectural features not shared with typical CNNs: local recurrence within cortical areas, and long-range feedback from downstream areas to upstream areas. Here we explored the role of recurrence in improving classification performance. We found that standard forms of recurrence (vanilla RNNs and LSTMs) do not perform well within deep CNNs on the ImageNet task. In contrast, novel cells that incorporated two structural features, bypassing and gating, were able to boost task accuracy substantially. We extended these design principles in an automated search over thousands of model architectures, which identified novel local recurrent cells and long-range feedback connections useful for object recognition. Moreover, these task-optimized ConvRNNs matched the dynamics of neural activity in the primate visual system better than feedforward networks, suggesting a role for the brain's recurrent connections in performing difficult visual behaviors.

研究の動機と目的

フィードフォワードCNNを超える視覚的物体認識における再発とフィードバックの役割を動機づけ、定量化する。
現実的な皮質様のタイミングでImageNet規模で動作できるConvRNNを開発する。
性能を向上させる局所的な再発セルのモチーフと長距離フィードバックパターンを同定する。
タスク最適化されたConvRNNが霊長類腹側視覚路のニューロン動態を予測するかを評価する。

提案手法

標準的なCNNバックボーンを、約10 msの皮質伝導遅延に合わせた時刻刻み更新則を用いて、局所再発セルと長距離フィードバックで補強する。
ConvRNNを、パラメータ数を一致させたより広い/深いフィードフォワードベースラインおよび最小限に展開したコントロールと比較して、再発効果を分離する。
局所再発ユニット内でバイパスとゲーティングを組み合わせた Reciprocal Gated Cell を導入・評価する。
局所および全体再発を変化させた何百ものConvRNN変種に対して、Tree-structured Parzen Estimator を用いたアーキテクチャ探索を自動化する。
ImageNetでモデルを訓練（探索を速くするために128 pxのサブセットも）し、Top1精度をResNet-18/34のベースラインと比較する。
ConvRNN特徴を、線形写像と時刻分解予測を用いてマカックV4、pIT、cIT/aITニューロン動態に適合させる。

実験結果

リサーチクエスチョン

RQ1標準的な再発セル（バニラRNN、LSTM）をCNNに追加すると、パラメータ数を一致させたベースラインを超えてImageNetの性能が向上するか？
RQ2ゲーティングとバイパスを含む新しい局所再発セルは、深いCNNにおける標準セルをImageNetで上回るか？
RQ3物体認識において最適とされるアーキテクチャモチーフ（局所再発と長距離フィードバック）は何か、ネットワークの深さとともにどのように拡張されるか？
RQ4タスク最適化されたConvRNNは、フィードフォワードモデルより霊長類の腹側視覚路の時系列ニューロン動態をよりよく捉えるか？

主な発見

標準的なRNNおよびLSTMは、パラメータ数を一致させたベースラインを超えてImageNetの性能を大きく改善しない。
ゲーティングとバイパスを持つ Reciprocal Gated Cell は、LSTMsより少ないパラメータで精度を大幅に改善する。
ハイパーパラメータ探索により、隠れ状態の更新に深さ分離畳み込みと、選択的な長距離フィードバックが有益であることがわかった。
訓練後の中央値ConvRNNは、ResNet-34とほぼ同等のTop-1精度を達成しつつ、約75%のパラメータ数（15.5M対21.8M）である。
ImageNetで訓練されたConvRNNは、霊長類腹側視覚路のニューロンダイナミクス（V4からIT）を、フィードフォワード特徴と同等かそれ以上に予測し、持続的な時間的軌跡が後期予測を改善する。一方、時間定数のみのモデルはConvRNNの性能に及ばない。
完全訓練されたConvRNNは、時系列全体を通じた単一画像ニューロンダイナミクスの予測でフィードフォワードベースラインを上回ることがあり、再発が初期のフィードフォワード応答を超えた豊かな時系列構造を捉えることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。