QUICK REVIEW

[논문 리뷰] RNNPool: Efficient Non-linear Pooling for RAM Constrained Inference

Oindrila Saha, Aditya Kusupati|arXiv (Cornell University)|2020. 02. 27.

Advanced Neural Network Applications참고 문헌 50인용 수 27

한 줄 요약

이 논문은 RNNPool를 소개한다. RNNPool는 큰 활성화 맵을 효율적으로 다운샘플링하는 데 사용되는 새로운 RNN 기반 풀링 연산자로, 넓은 수신장 내에서 특징을 집계하는 데에 반복 신경망을 활용한다. 이로 인해 피크 RAM 사용량과 계산 비용을 크게 줄일 수 있으며, 높은 정확도를 유지할 수 있다. 이는 RAM이 256 KB 미만인 ARM Cortex-M4 장치에서 최신 기술 수준의 얼굴 검출을 가능하게 하며, 기존 방법보다 80배 적은 MAdds를 사용해 WIDER FACE에서 0.78 MAP 성능을 달성한다.

ABSTRACT

Standard Convolutional Neural Networks (CNNs) designed for computer vision tasks tend to have large intermediate activation maps. These require large working memory and are thus unsuitable for deployment on resource-constrained devices typically used for inference on the edge. Aggressively downsampling the images via pooling or strided convolutions can address the problem but leads to a significant decrease in accuracy due to gross aggregation of the feature map by standard pooling operators. In this paper, we introduce RNNPool, a novel pooling operator based on Recurrent Neural Networks (RNNs), that efficiently aggregates features over large patches of an image and rapidly downsamples activation maps. Empirical evaluation indicates that an RNNPool layer can effectively replace multiple blocks in a variety of architectures such as MobileNets, DenseNet when applied to standard vision tasks like image classification and face detection. That is, RNNPool can significantly decrease computational complexity and peak memory usage for inference while retaining comparable accuracy. We use RNNPool with the standard S3FD architecture to construct a face detection method that achieves state-of-the-art MAP for tiny ARM Cortex-M4 class microcontrollers with under 256 KB of RAM. Code is released at https://github.com/Microsoft/EdgeML.

연구 동기 및 목표

RAM이 제한된 엣지 장치, 특히 ARM Cortex-M4 마이크로컨트롤러와 같은 자원이 제한된 환경에서 표준 CNN을 구현할 때 발생하는 높은 메모리 및 계산 요구량 문제를 해결하기 위해.
이러한 메모리 제약 환경에서 표준 풀링 또는 스트라이드 컨벌루션을 통해 극단적으로 다운샘플링할 경우 발생하는 정확도 저하 문제를 해결하기 위해.
빠르고 비선형적인 활성화 맵의 다운샘플링을 가능하게 하며, 특징 표현력을 유지하고 메모리 오버헤드를 최소화하는 새로운 풀링 연산자를 설계하기 위해.
RNNPool가 표준 CNN 블록을 여러 개 대체할 수 있음을 입증하여, 특히 네트워크의 초기 단계에서 피크 메모리와 MAdds를 크게 줄일 수 있음을 보여주기 위해.
S3FD 아키텍처에 RNNPool를 통합하여 초소형 엣지 장치에서 얼굴 검출 성능을 최신 기술 수준으로 향상시키기 위해.

제안 방법

RNNPool는 크기가 r×c인 슬라이딩 윈도우(패치) 내에서 행과 열을 각각 처리하는 두 개의 별도 RNN을 사용하여, 비선형적으로 특징을 집계한다.
이 연산자는 패치의 각 행과 열을 순환 처리하여 크기가 4h₂인 압축된 고수준 표현을 생성한다. 여기서 h₂는 RNN의 은닉 차원이다.
사용자 정의 가능한 하이퍼파라미터를 지원한다: 패치 크기(수신장), 스트라이드(중첩 또는 비중첩 패치), 출력 차원(h₂). 이를 통해 다양한 다운샘플링에 유연하게 대응할 수 있다.
RNNPool 레이어는 미분 가능하며, 표준 풀링 레이어와 동일한 문법으로 삽입할 수 있어, 기존 아키텍처에서 max/average 풀링 또는 스트라이드 컨벌루션을 쉽게 대체할 수 있다.
최소한의 파라미터 오버헤드로 높은 정확도를 유지하면서 MAdds를 최소화하기 위해 FastGRNN을 RNN 셀로 사용한다.
RNNPool는 MobileNetV2, DenseNet, S3FD의 초기 블록 여러 개를 대체하는 데 적용되어 활성화 맵 크기와 추론 중 피크 메모리 사용량을 줄였다.

실험 결과

연구 질문

RQ1비선형적이고 RNN 기반의 풀링 연산자가 자원이 제한된 장치에서 큰 활성화 맵을 효과적으로 다운샘플링하면서도 모델 정확도를 유지할 수 있는가?
RQ2RNNPool가 초기 네트워크 단계에서 표준 CNN 블록을 얼마나 효과적으로 대체할 수 있는가? 이로 인해 피크 메모리와 계산 복잡도는 얼마나 줄어들 수 있는가?
RQ3이미지 분류 및 얼굴 검출 작업에 적용했을 때, RNNPool는 표준 풀링 및 스트라이드 컨벌루션과 비교해 정확도, 메모리 사용량, MAdds 측면에서 어떻게 성능을 내는가?
RQ4RNNPool는 ARM Cortex-M4 마이크로컨트롤러와 같이 RAM이 256 KB 미만인 초저전력 엣지 장치에서 최신 기술 수준의 얼굴 검출 성능을 달성할 수 있는가?
RQ5정확도, 메모리, 계산 효율성의 균형을 고려할 때, RNNPool 하이퍼파라미터(패치 크기, 스트라이드, 은닉 크기, RNN 셀 유형)의 최적 조합은 무엇인가?

주요 결과

RNNPool는 ImageNet-10에서 94.4% 정확도를 유지하면서 MobileNetV2의 피크 메모리 요구량을 최대 10배까지 줄였다. 또한 MAdds는 약 25% 감소시켰다.
FastGRNN를 사용한 RNNPool는 LSTM 대비 226M의 MAdds를 절감했으며, 정확도는 1% 높은 94.4%를 기록했다(비교 기준: 93.4%).
패치 크기 16, 스트라이드 8, 출력 채널 수 32인 단일 RNNPool 레이어는 640×640×3 입력을 80×80×32 활성화 맵으로 압축했으며, 약 200 KB의 RAM만 필요로 했다.
RNNPool를 통합한 S3FD 모델은 WIDER FACE의 중간 카테고리에서 0.78 MAP 성능을 달성하여 EXTD를 능가했으며, MAdds는 80배 적게 사용했고, RAM은 단지 225 KB로 작동했다.
MobileNetV2의 최종 평균 풀링 레이어를 RNNPool로 대체함으로써 정확도가 약 1% 향상되었다.
RNNPool 기반 모델의 학습 동역학은 표준 모델과 유사했으며, 학습 과정에서 특별한 어려움이 없음을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.