[论文解读] Task-Driven Convolutional Recurrent Models of the Visual System
本论文将局部递归和远程反馈集成到 CNN 中,形成 ConvRNNs,利用超参数搜索发现有效的局部递归单元,并展示这些模型与灵长类动物的视觉动态匹配,以及比更深的前馈网络在参数更少的情况下达到相同水平。
Feed-forward convolutional neural networks (CNNs) are currently state-of-the-art for object classification tasks such as ImageNet. Further, they are quantitatively accurate models of temporally-averaged responses of neurons in the primate brain's visual system. However, biological visual systems have two ubiquitous architectural features not shared with typical CNNs: local recurrence within cortical areas, and long-range feedback from downstream areas to upstream areas. Here we explored the role of recurrence in improving classification performance. We found that standard forms of recurrence (vanilla RNNs and LSTMs) do not perform well within deep CNNs on the ImageNet task. In contrast, novel cells that incorporated two structural features, bypassing and gating, were able to boost task accuracy substantially. We extended these design principles in an automated search over thousands of model architectures, which identified novel local recurrent cells and long-range feedback connections useful for object recognition. Moreover, these task-optimized ConvRNNs matched the dynamics of neural activity in the primate visual system better than feedforward networks, suggesting a role for the brain's recurrent connections in performing difficult visual behaviors.
研究动机与目标
- 激发并量化在超越前馈 CNN 的视觉对象识别中,递归与反馈的作用。
- 开发能够以接近皮层时序的现实时序,在 ImageNet 规模上运行的 ConvRNN。
- 识别有助于提升性能的局部递归单元模体与远程长期反馈模式。
- 评估经任务优化的 ConvRNN 是否能预测灵长类动物腹侧视觉通路的神经动力学。
提出的方法
- 使用大约 10 ms 皮层传导延迟对齐的时间步更新规则,增强标准 CNN 主干,融入局部递归单元和远程反馈。
- 将 ConvRNN 与参数匹配的更宽/更深前馈基线及最小展开的对照进行比较,以隔离递归效应。
- 引入并评估在局部递归单元中结合旁路与门控的 Reciprocal Gated Cell。
- 自动化架构搜索(树结构 Parzen 估计)在数百个具有不同局部和全局递归的 ConvRNN 变体上进行。
- 在 ImageNet 上训练模型(以及用于更快搜索的 128 px 子集),并将 Top1 准确率与 ResNet-18/34 基线进行比较。
- 使用线性映射和时间分辨预测,将 ConvRNN 特征拟合到 macaque 的 V4、pIT、以及 cIT/aIT 的神经动力学。
实验结果
研究问题
- RQ1将标准递归单元(普通 RNN、LSTM)加入 CNN,是否能在参数匹配的基线之外提升 ImageNet 的表现?
- RQ2包含门控与旁路的新型局部递归单元能否在 ImageNet 的深层 CNN 上超越标准单元?
- RQ3哪些架构模体(局部递归与远程反馈)成为对象识别的最佳选择,它们如何随网络深度扩展?
- RQ4任务优化的 ConvRNN 是否比前馈模型更好地捕捉灵长类动物腹侧视觉通路的时间动态?
主要发现
- 标准 RNN 和 LSTM 在 ImageNet 的性能上并未显著超越参数匹配基线。
- 带有门控和旁路的 Reciprocal Gated Cell 在使用比 LSTMs 少的参数的同时,显著提升了准确性。
- 超参数搜索显示用于更新隐藏状态的深度分离卷积和有选择的远程反馈有益。
- 训练后的中位数 ConvRNN 在参数大约为 75% 的 ResNet-34 上达到接近顶尖的 Top-1 准确率;15.5M vs 21.8M,并与更深模型的表现相近(文本中 ResNet-34 为 73.1%)。
- 在 ImageNet 上训练的 ConvRNN 能预测灵长类动物腹侧视觉通路的神经动力学(从 V4 到 IT),与前馈特征不相上下甚至更好,并且持续的时间轨迹改善晚期预测;仅时间常数的模型无法达到 ConvRNN 的性能。
- 完全训练的 ConvRNN 在跨时间对单张图像的神经动力学预测方面可以胜过前馈基线,表明递归捕捉到超出初始前馈响应的丰富时间结构。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。