QUICK REVIEW

[논문 리뷰] Deep Networks with Stochastic Depth

Gao Huang, Yu Sun|arXiv (Cornell University)|2016. 03. 30.

Advanced Neural Network Applications참고 문헌 28인용 수 287

한 줄 요약

이 논문은 훈련 중에 계층을 임의로 제거하여 매우 깊은 ResNet 유사 네트워크를 학습하는 확률적 깊이(stochastic depth)를 제안하여, 1000개가 넘는 깊이의 모델에서 더 빠른 학습과 개선된 테스트 정확도를 가능하게 하고, 훈련을 깊이가 달라진 암시적 앙상블로 다룬다.

ABSTRACT

Very deep convolutional networks with hundreds of layers have led to significant reductions in error on competitive benchmarks. Although the unmatched expressiveness of the many layers can be highly desirable at test time, training very deep networks comes with its own set of challenges. The gradients can vanish, the forward flow often diminishes, and the training time can be painfully slow. To address these problems, we propose stochastic depth, a training procedure that enables the seemingly contradictory setup to train short networks and use deep networks at test time. We start with very deep networks but during training, for each mini-batch, randomly drop a subset of layers and bypass them with the identity function. This simple approach complements the recent success of residual networks. It reduces training time substantially and improves the test error significantly on almost all data sets that we used for evaluation. With stochastic depth we can increase the depth of residual networks even beyond 1200 layers and still yield meaningful improvements in test error (4.91% on CIFAR-10).

연구 동기 및 목표

매우 깊은 CNN의 학습 도전과제(소실되는 그래디언트, 축소된 순전파 흐름, 긴 학습 시간)를 동기 부여하고 해결한다.
학습 중 깊이를 단축하되 테스트 시점에는 전체 깊이를 보존하는 잔차 네트워크 기반의 간단하고 호환 가능한 학습 절차(확률적 깊이)를 제안한다.
확률적 깊이가 CIFAR-10/100, SVHN, ImageNet 등 여러 데이터셋에서 학습 시간을 줄이고 테스트 오차를 개선한다는 것을 보여준다.
이 방법이 암시적 앙상블처럼 작동하고 드롭아웃과 유사한 규제 효과를 제공하여 배치 정규화가 적용된 네트워크에 이점을 준다

제안 방법

각 ResBlock에 대해 학습 패스 동안 활성화 여부를 나타내는 Bernoulli 변수 b_l을 도입한다 (b_l in {0,1}).
각 블록에 대해 생존 확률 p_l을 정의하고 비활성인 블록은 해당 경로에서 f_l(H_{l-1})을 0으로 대체하여 비활성 시 항등 스킵 연결을 사용하도록 한다.
선형 감소 규칙 p_l = 1 - (l/L)(1 - p_L) 를 p_0 = 1에서 시작하여 p_L까지 적용한다(일반적으로 p_L = 0.5).
각 미니배치마다 유효 깊이를 감소시켜 매우 깊은 ResNet을 학습하고 서로 다른 서브 네트워크를 샘플링한다; 테스트 시에는 전체 깊이를 유지하되 학습 참여를 반영하여 출력에 p_l를 스케일링한다(식 5).
확률적 깊이가 깊이 평균화된 순전파/역전파로 더 빠른 학습을 가능하게 하고, 암시적 앙상블과 규제 효과를 통해 일반화 성능을 향상시킨다고 주장한다.
CIFAR-10/100, SVHN, ImageNet에서 실험적으로 평가하고, 확률적 깊이가 표준 ResNet에 비해 이득을 주는 1202-층 네트워크를 포함한다.

실험 결과

연구 질문

RQ1확률적 깊이가 1000층이 넘는 네트워크를 학습시키면서 테스트 정확도를 유지하거나 향상시킬 수 있는가?
RQ2학습 중 네트워크의 깊이를 줄이는 것이 성능 손실 없이 학습 시간을 줄이는가?
RQ3고정 깊이 ResNet과 비교하여 확률적 깊이가 그래디언트 흐름과 학습 역학에 어떤 영향을 미치는가?
RQ4이 방법이 효과적인 규제기로 작용하고 암시적으로 여러 깊이를 앙상블하는가?

주요 결과

확률적 깊이로 학습하면 학습 시간이 크게 단축된다( CIFAR-10/100 및 SVHN에서 약 25%).
확률적 깊이가 있는 ResNet은 CIFAR-10에서 5.25% 대 6.41%, CIFAR-100에서 24.98% 대 27.76%, SVHN에서 1.75% 대 1.80%로 고정 깊이 대비 더 낮은 테스트 오차를 달성한다.
CIFAR-10에서 확률적 깊이가 있는 1202-layer ResNet은 4.91%의 테스트 오차를 달성했고 당시 새로운 기록이며 110-layer 버전보다 향상된다.
CIFAR-100에서 확률적 깊이는 오류를 24.98%로 감소시켜 당시의 단일 모델 최첨단 성능인 27.76%에서 감소시켰다.
ImageNet 결과는 이 방법이 매우 깊은 네트워크(152-layer ResNet)에 적용될 수 있음을 보여준다; 확률적 깊이로 최종 검증 오차가 21.78% 및 21.98%로 보고되어 더 긴 훈련과 더 큰 모델에서 잠재적 이득을 시사한다.
이 방법은 그래디언트 흐름을 강화하고(학습률 하강 후 그래디언트 크기가 커짐) 드롭아웃에 비유되는 강력한 규제 효과를 가지며 배치 정규화가 있어도 마찬가지이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.