[論文レビュー] Brain-Like Object Recognition with High-Performing Shallow Recurrent ANNs
本研究は CORnet-S を紹介する。浅い構造の四領域再帰型 ANN で、腹側視覚流の解剖学に整合し、モデルの中で最高の Brain-Score を達成するとともに、ImageNet で高い性能を維持する。
Deep convolutional artificial neural networks (ANNs) are the leading class of candidate models of the mechanisms of visual processing in the primate ventral stream. While initially inspired by brain anatomy, over the past years, these ANNs have evolved from a simple eight-layer architecture in AlexNet to extremely deep and branching architectures, demonstrating increasingly better object categorization performance, yet bringing into question how brain-like they still are. In particular, typical deep models from the machine learning community are often hard to map onto the brain's anatomy due to their vast number of layers and missing biologically-important connections, such as recurrence. Here we demonstrate that better anatomical alignment to the brain and high performance on machine learning as well as neuroscience measures do not have to be in contradiction. We developed CORnet-S, a shallow ANN with four anatomically mapped areas and recurrent connectivity, guided by Brain-Score, a new large-scale composite of neural and behavioral benchmarks for quantifying the functional fidelity of models of the primate ventral visual stream. Despite being significantly shallower than most models, CORnet-S is the top model on Brain-Score and outperforms similarly compact models on ImageNet. Moreover, our extensive analyses of CORnet-S circuitry variants reveal that recurrence is the main predictive factor of both Brain-Score and ImageNet top-1 performance. Finally, we report that the temporal evolution of the CORnet-S "IT" neural population resembles the actual monkey IT population dynamics. Taken together, these results establish CORnet-S, a compact, recurrent ANN, as the current best model of the primate ventral visual stream.
研究の動機と目的
- 解剖学的妥当性と高い認識性能のバランスを取る脳に着想を得た ANN の構築を動機づける。
- V1、V2、V4、IT に対応づけられた四領域再帰モデル CORnet-S を提案し、Brain-Score に基づく脳らしさを検証する。
- 再帰性が深さではなく brain-likeness と性能を支えることを示す。
- 一般化性を評価するため、ImageNet および転移タスクに対して CORnet-S を評価する。
- CORnet-S が霊長類の神経動態と行動パターンをどの程度捕捉するかを定量化する。
提案手法
- 四つの解剖学的に対応付けられた領域(V1、V2、V4、IT)と線形カテゴリーデコーダーを持つ CORnet-S を定義する。
- 各領域の出力を自分自身へ短いステップで戻すことで再帰を実装する(例:V2 COR と IT COR は2回、V4 COR は4回)。
- 領域内の回路を固定し、時間非共有バッチ正規化を用いた浅い畳み込みブロックを使用する。
- ImageNet 2012 で SGD モーメンタム、43 エポック、バッチサイズ 256、学習率スケジュール(0.1 を毎 20 エポック毎に 10 分の 1)で訓練する。
- Brain-Score を用いて脳類似性を評価し、V4/IT の神経予測性、行動予測性、およびサル IT における神経動態(OST)を含む。
- Brain-Score と ImageNet を用いて、CORnet-S を AlexNet、VGG、ResNet、Inception、NASNet などの広範なモデルと比較する。
- 新しいデータセット上で神経・行動ベンチマークを評価する際、線形分類器のみを再訓練して CIFAR-100 へ一般化する。)
実験結果
リサーチクエスチョン
- RQ1コンパクトで解剖学的に整合した再帰型 ANN が、強力な ImageNet 性能を維持しつつ最先端の brain-likeness(Brain-Score)を達成できるか?
- RQ2どのようなアーキテクチャ要因(再帰、ボトルネック幅、スキップ接続)が Brain-Score と物体認識性能に最も影響するか?
- RQ3CORnet-S は実際の神経応答の軌跡に類似した霊長類 IT の時間的な神経動態を捕捉するか?
- RQ4脳らしさと CIFAR-100 での転移性能、及び新しい神経・行動データセットへの一般化との関係はどうか?
主な発見
- CORnet-S はテストされたモデルの中で最高の Brain-Score(.471)を達成しつつ、浅いアーキテクチャのままである。
- CORnet-S は top-1 ImageNet 精度 73.1% に達し(Brain-Score が最大となるエポック)、浅いモデルの中で CIFAR-100 への転移性能が最良を示す。
- CORnet-S の再帰性が Brain-Score および ImageNet top-1 性能の主な予測因子である。
- モデルの IT 神経動態(オブジェクトソリューションタイム)はサル IT のタイミングと相関し、時間的に進化する表現を示している。
- Brain-Score の一般化分析は、新規被験者やデータセットにおいても CORnet-S が高くランクされ、元のデータを超えた頑健な brain-likeness を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。