QUICK REVIEW

[论文解读] RNNPool: Efficient Non-linear Pooling for RAM Constrained Inference

Oindrila Saha, Aditya Kusupati|arXiv (Cornell University)|Feb 27, 2020

Advanced Neural Network Applications参考文献 50被引用 27

一句话总结

该论文提出RNNPool，一种基于RNN的新型池化算子，通过使用循环网络在大感受野上聚合特征，高效下采样卷积神经网络中的大尺寸激活图，显著降低峰值内存占用和计算成本，同时保持高精度。该方法使ARM Cortex-M4设备上实现SOTA级人脸检测成为可能，RAM使用量低于256 KB，在WIDER FACE数据集上达到0.78 MAP，且所需MAdds比之前方法减少80倍。

ABSTRACT

Standard Convolutional Neural Networks (CNNs) designed for computer vision tasks tend to have large intermediate activation maps. These require large working memory and are thus unsuitable for deployment on resource-constrained devices typically used for inference on the edge. Aggressively downsampling the images via pooling or strided convolutions can address the problem but leads to a significant decrease in accuracy due to gross aggregation of the feature map by standard pooling operators. In this paper, we introduce RNNPool, a novel pooling operator based on Recurrent Neural Networks (RNNs), that efficiently aggregates features over large patches of an image and rapidly downsamples activation maps. Empirical evaluation indicates that an RNNPool layer can effectively replace multiple blocks in a variety of architectures such as MobileNets, DenseNet when applied to standard vision tasks like image classification and face detection. That is, RNNPool can significantly decrease computational complexity and peak memory usage for inference while retaining comparable accuracy. We use RNNPool with the standard S3FD architecture to construct a face detection method that achieves state-of-the-art MAP for tiny ARM Cortex-M4 class microcontrollers with under 256 KB of RAM. Code is released at https://github.com/Microsoft/EdgeML.

研究动机与目标

为解决在资源受限的边缘设备（如ARM Cortex-M4微控制器）上部署标准CNN时面临的高内存和计算需求挑战。
克服在内存受限环境中，通过标准池化或步长大卷积进行激进下采样导致的精度下降问题。
设计一种新型池化算子，实现在保留特征表达能力的同时，快速且非线性地压缩激活图，并最小化内存开销。
证明RNNPool可有效替代多个标准CNN模块，尤其是在网络早期阶段，大幅降低峰值内存和MAdds，且不损失精度。
通过将RNNPool集成到S3FD架构中，实现在超小型边缘设备上实现SOTA级人脸检测性能。

提出的方法

RNNPool在大小为r×c的滑动窗口（补丁）内使用两个独立的RNN——一个处理行，一个处理列——以非线性方式聚合特征。
该算子在特征补丁的每一行和每一列上应用循环计算，生成大小为4h₂的紧凑、高层级表示，其中h₂为RNN的隐藏维度。
支持可配置的超参数：补丁大小（感受野）、步长（用于非重叠或重叠补丁）和输出维度（h₂），实现灵活的下采样。
RNNPool层可微分，可像标准池化层一样进行语法插入，支持无缝替换现有架构中的最大池化/平均池化或步长大卷积。
该方法采用FastGRNN作为RNN单元，以最小化MAdds，同时保持高精度，且参数开销极低。
RNNPool被用于替换MobileNetV2、DenseNet和S3FD中的多个初始模块，有效减小激活图尺寸和推理过程中的峰值内存使用量。

实验结果

研究问题

RQ1非线性RNN-based池化算子能否在资源受限设备上有效下采样大型激活图，同时保持模型精度？
RQ2RNNPool在多大程度上可以替代早期网络阶段的多个标准CNN模块，以减少峰值内存和计算复杂度？
RQ3在图像分类和人脸检测任务中，RNNPool与标准池化和步长大卷积相比，在精度、内存使用和MAdds方面表现如何？
RQ4RNNPool能否使超低内存边缘设备（如RAM低于256 KB的ARM Cortex-M4微控制器）实现SOTA级人脸检测性能？
RQ5RNNPool超参数（补丁大小、步长、隐藏层大小、RNN单元类型）的最优配置是什么，以在精度、内存和计算效率之间实现最佳平衡？

主要发现

RNNPool将MobileNetV2的峰值内存需求降低了最多10倍，同时在ImageNet-10上将MAdds减少约25%，精度仍保持在94.4%。
在ImageNet-10上，使用FastGRNN的RNNPool相比LSTM将MAdds减少了226M（266M vs. 226M），且精度提高1%（94.4% vs. 93.4%）。
一个配置为补丁大小16、步长8、输出通道32的RNNPool层，可将640×640×3的输入压缩为80×80×32的激活图，仅需约200 KB RAM。
RNNPool增强的S3FD模型在WIDER FACE的中等类别上达到0.78 MAP，优于EXTD，且MAdds减少80倍，运行在仅225 KB RAM的设备上。
在MobileNetV2中，用RNNPool替换最后的平均池化层，精度提升了约1%。
基于RNNPool的模型训练动态与标准模型相当，表明无显著训练难度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。