QUICK REVIEW

[논문 리뷰] ShaResNet: reducing residual network parameter number by sharing weights

Alexandre Boulch|arXiv (Cornell University)|2017. 02. 28.

Advanced Neural Network Applications참고 문헌 10인용 수 19

한 줄 요약

이 논문은 동일한 공간적 스케일 내 잔차 블록 간에 3×3 컨볼루션 가중치를 공유함으로써 파라미터 수를 줄이는 잔차 신경망의 변종인 ShaResNet을 제안한다. 동일한 공간적 스케일 내에서 블록 간에 공유된 컨볼루션을 재사용하면서도 블록 고유의 레이어를 유지함으로써, ShaResNet은 최대 39%의 파라미터 감소를 달성한다 — 예를 들어 152층의 ResNet이 106층으로 줄어듦 — 동시에 ImageNet에서 상위 1위 정확도 손실이 0.2% 미만이다.

ABSTRACT

Deep Residual Networks have reached the state of the art in many image processing tasks such image classification. However, the cost for a gain in accuracy in terms of depth and memory is prohibitive as it requires a higher number of residual blocks, up to double the initial value. To tackle this problem, we propose in this paper a way to reduce the redundant information of the networks. We share the weights of convolutional layers between residual blocks operating at the same spatial scale. The signal flows multiple times in the same convolutional layer. The resulting architecture, called ShaResNet, contains block specific layers and shared layers. These ShaResNet are trained exactly in the same fashion as the commonly used residual networks. We show, on the one hand, that they are almost as efficient as their sequential counterparts while involving less parameters, and on the other hand that they are more efficient than a residual network with the same number of parameters. For example, a 152-layer-deep residual network can be reduced to 106 convolutional layers, i.e. a parameter gain of 39\%, while loosing less than 0.2\% accuracy on ImageNet.

연구 동기 및 목표

정확도를 희생시키지 않고 깊은 잔차 신경망의 파라미터 수를 줄이는 것.
잔차 블록 간에 반복되는 공간 연산을 공유함으로써 파라미터 효율성을 향상시킬 수 있는지 조사하는 것.
유사한 파라미터 예산을 가진 더 깊은 순차적 네트워크와 비교했을 때, 공유된 컨볼루션 레이어가 더 나은 성능을 낼 수 있는지 평가하는 것.
인공 신경망에서 순환 유사 가중치 공유의 생물학적 타당성을 탐색하는 것.
표준 잔차 신경망의 최적화 이점을 유지하면서도 훈련에 적합한 아키텍처를 개발하는 것.

제안 방법

잔차 신경망의 동일 스테이지(공간 스케일) 내 모든 잔차 블록 간에 3×3 컨볼루션 필터를 공유한다.
아이덴티티 매핑과 특징 변환을 위한 블록 고유의 컨볼루션 레이어를 유지한다.
동일한 공유된 컨볼루션 레이어를 여러 개의 잔차 블록에서 사용하여 신호가 여러 번 이를 통과하도록 한다.
표준 백프로파게이션과 확률적 경사 하강법을 사용해 전체 아키텍처를 훈련하며, 표준 ResNet과 동일한 방식이다.
배치 정규화나 완전 연결 레이어를 제외하고 주로 메인 컨볼루션 레이어에만 가중치 공유를 적용하여 훈련 안정성을 유지한다.
공간 차원 감소가 일어나는 것은 전용 블록(도면에서 빨간색으로 표시됨)에서만 이루어지며, 공유된 컨볼루션(초록색)은 여러 블록을 걸쳐 작동하도록 아키텍처를 설계한다.

실험 결과

연구 질문

RQ1잔차 블록 간에 공유된 컨볼루션 가중치가 정확도 손실 없이 파라미터 수를 줄일 수 있는가?
RQ2동일한 파라미터 수를 가진 ShaResNet과 표준 ResNet 간의 파라미터 효율성은 어떻게 비교되는가?
RQ3가중치 공유가 더 깊지만 파라미터 효율성이 떨어지는 아키텍처보다 깊은 네트워크에서 정확도 대비 파라미터 비용을 개선하는가?
RQ4가중치 공유의 성능 향상 효과는 네트워크 깊이 또는 데이터셋 크기에 따라 달라지는가?
RQ5생물학적 뇌 구조가 제안하는 바와 같이, 공유된 컨볼루션은 블록 간에 반복되는 공간 연산을 효과적으로 모델링할 수 있는가?

주요 결과

152층의 ResNet에서 ShaResNet은 파라미터 수를 39% 감소시켜 106M에서 64M로 줄였으며, ImageNet에서 상위 1위 정확도 손실이 0.2% 미만이다.
CIFAR-10에서 공유된 컨볼루션을 가진 164층의 ResNet(0.93M 파라미터)은 93.8%의 정확도를 달성했으며, 이는 더 浅은 92층의 ResNet(0.96M 파라미터)가 달성한 93.9%의 정확도와 유사하다.
CIFAR-10에서 Wide ResNet-28-4의 공유된 버전(5.85M 파라미터)은 94.9%의 정확도를 기록했고, 비공유 버전(5.85M 파라미터)의 95.0%보다 略적으로 낮지만 유사한 성능을 보였다.
CIFAR-100에서 공유된 WRN-28-10(26.86M 파라미터)은 79.8%의 정확도를 기록했고, 비공유된 WRN-22-10(26.85M 파라미터)의 79.55%보다 높았다.
ImageNet과 같은 대규모 데이터셋에서 표준 ResNet과 동일한 파라미터 수를 가진 경우, ShaResNet의 상위 1위 오차율은 항상 낮게 유지된다.
가중치 공유의 성능 향상 효과는 더 깊은 네트워크에서 가장 두드러지며, 공간 연산의 높은 재현성 덕분에 공유 레이어가 파라미터를 더 효과적으로 활용한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.