QUICK REVIEW

[论文解读] Deep Predictive Coding Network with Local Recurrent Processing for Object Recognition

Kuan Han, Haiguang Wen|arXiv (Cornell University)|May 19, 2018

Advanced Neural Network Applications被引用 35

一句话总结

本文提出了一种深度预测编码网络（PCN），通过使用具有双向反馈和前向连接的局部循环处理，迭代优化物体识别表征。通过模仿大脑中的预测编码机制，PCN 在 SVHN、CIFAR 和 ImageNet 上实现了与标准卷积神经网络（CNN）相当的图像分类准确率，且网络层数和参数量更少，同时通过预测误差揭示了视觉显著性。

ABSTRACT

Inspired by "predictive coding" - a theory in neuroscience, we develop a bi-directional and dynamic neural network with local recurrent processing, namely predictive coding network (PCN). Unlike feedforward-only convolutional neural networks, PCN includes both feedback connections, which carry top-down predictions, and feedforward connections, which carry bottom-up errors of prediction. Feedback and feedforward connections enable adjacent layers to interact locally and recurrently to refine representations towards minimization of layer-wise prediction errors. When unfolded over time, the recurrent processing gives rise to an increasingly deeper hierarchy of non-linear transformation, allowing a shallow network to dynamically extend itself into an arbitrarily deep network. We train and test PCN for image classification with SVHN, CIFAR and ImageNet datasets. Despite notably fewer layers and parameters, PCN achieves competitive performance compared to classical and state-of-the-art models. Further analysis shows that the internal representations in PCN converge over time and yield increasingly better accuracy in object recognition. Errors of top-down prediction also reveal visual saliency or bottom-up attention.

研究动机与目标

开发一种受大脑预测编码启发的生物可解释神经网络架构，以提升物体识别性能。
通过在浅层网络中引入循环处理实现动态深度，减少对深层前馈架构的依赖。
探究局部循环处理结合反馈与前向连接是否能够提升表征学习与分类性能。
探索在迭代推理过程中，预测误差是否能催生视觉显著性。
比较预测编码网络中局部循环处理与全局循环处理在性能与动态特性上的差异。

提出的方法

PCN 采用双向架构，每层通过反馈（自顶向下的预测）和前向（自底向上的误差）连接与相邻层进行交互，实现局部循环处理。
在每个时间步，网络通过类似梯度的动态机制，迭代优化层内表征，以最小化预测误差。
网络使用标准反向传播进行训练，但推理过程通过时间展开循环处理，实现有效层次的加深。
每层使用 Inception 类型的 CNN 模块提取特征，并结合预测编码动力学实现迭代优化。
通过分析各层间的预测误差信号，研究识别过程中的视觉显著性与注意力机制。
模型在 SVHN、CIFAR-10、CIFAR-100 和 ImageNet 上，基于标准图像分类协议进行评估。

实验结果

研究问题

RQ1与标准 CNN 相比，双向网络中的局部循环处理是否能在参数和层数更少的情况下提升物体识别性能？
RQ2循环处理过程中的预测误差与视觉显著性或自底向上的注意力之间有何关联？
RQ3通过预测编码对表征进行迭代优化，是否能导致收敛且稳定的内部状态？
RQ4在性能与效率方面，局部循环处理与全局循环处理相比表现如何？
RQ5PCN 中的误差信号是否可用于无监督预测显著性图？

主要发现

PCN 在 SVHN、CIFAR-10、CIFAR-100 和 ImageNet 上实现了与标准或最先进模型相当的分类准确率，且网络层数和参数量显著更少。
预测误差范数随时间减小，表明在循环处理过程中，内部表征逐渐收敛至稳定、低误差状态。
各层间预测误差的空间分布揭示了视觉显著性，突出显示了具有关键特征的图像区域，表明自底向上的注意力机制可能自然涌现。
层表征的更新方向与分类损失的负梯度对齐，表明预测编码隐式支持了最优表征学习。
采用局部循环处理的 PCN 表现优于其全局循环处理的对应版本，表明局部反馈已足够支持核心物体识别。
网络内部的误差信号可无监督地预测显著性图，表明其在注意力建模方面具有潜力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。