QUICK REVIEW

[논문 리뷰] Swapout: Learning an ensemble of deep architectures

Saurabh Singh, Derek Hoiem|arXiv (Cornell University)|2016. 05. 20.

Advanced Neural Network Applications참고 문헌 18인용 수 105

한 줄 요약

Swapout은 유닛 단위 및 계층 단위에서 아키텍처 앙상블을 샘플링하기 위해 드롭아웃과 확률적 깊이(stochastic depth)를 일반화한 확률적 학습 방법으로, 동일 깊이의 ResNet 대비 정확도를 향상시키고 아주 넓고 얕은 네트워크가 심층 모델에 맞먹도록 만듭니다.

ABSTRACT

We describe Swapout, a new stochastic training method, that outperforms ResNets of identical network structure yielding impressive results on CIFAR-10 and CIFAR-100. Swapout samples from a rich set of architectures including dropout, stochastic depth and residual architectures as special cases. When viewed as a regularization method swapout not only inhibits co-adaptation of units in a layer, similar to dropout, but also across network layers. We conjecture that swapout achieves strong regularization by implicitly tying the parameters across layers. When viewed as an ensemble training method, it samples a much richer set of architectures than existing methods such as dropout or stochastic depth. We propose a parameterization that reveals connections to exiting architectures and suggests a much richer set of architectures to be explored. We show that our formulation suggests an efficient training method and validate our conclusions on CIFAR-10 and CIFAR-100 matching state of the art accuracy. Remarkably, our 32 layer wider model performs similar to a 1001 layer ResNet model.

연구 동기 및 목표

드롭아웃과 확률적 깊이를 넘어 딥 네트워크에서 정규화 및 아키텍처 다양성에 대한 동기를 제공한다.
풍부한 아키텍처 집합에서 샘플링하는 일반화된 확률적 학습 프레임워크(Swapout) 개발.
CIFAR-10 및 CIFAR-100에서 Swapout을 ResNet 및 기초 확률적 방법과 비교 평가한다.
더 넓고 더 얕은 Swapout 모델이 매우 깊은 잔차 네트워크를 따라가거나 이를 능가할 수 있음을 보여준다.

제안 방법

Swapout을 0, X, F(X), X+F(X) 등 여러 옵션 중에서 단위별로 확률적으로 선택하는 방식으로 정의한다.
Swapout이 드롭아웃과 확률적 깊이를 특별한 경우로 일반화함을 보인다.
Swapout과 드롭아웃과 유사한 SGD 안정성에 연결되는 리프시츠-안정성 논의를 제공한다.
추론 방식 비교: 결정론적(기대값) 대 확률적(다중 네트워크 인스턴스 샘플링).
CIFAR-10/100에서 ResNet 유사 블록으로 실험, 결정적 및 확률적 추론을 사용하고 네트워크 너비와 깊이를 변화시킨다.
매개변수 효율적인 결과를 제시하여 더 넓고 얕은 Swapout 네트워크가 매우 깊은 ResNet에 견줄 수 있음을 보여준다.

실험 결과

연구 질문

RQ1동등 깊이의 ResNet 대비 Swapout이 CIFAR-10 및 CIFAR-100에서 정확도를 높일 수 있는가?
RQ2Swapout으로 네트워크 너비를 확장하는 것이 더 깊은 아키텍처에 비견할 만한 이득을 제공하는가?
RQ3다양한 확률적 학습 스케줄(층별 Bernoulli 매개변수)이 성능에 어떤 영향을 미치는가?
RQ4결정론적 추론보다 확률적 추론(다수의 순전파 샘플링)이 Swapout에 유리한가?
RQ5기준 방법과 비교할 때 Swapout의 매개변수 효율성과 성능 간의 관계는 어떤가?

주요 결과

Method	#Params	Error(%)
DropConnect [20]	-	9.32
NIN [11]	-	8.81
FitNet(19) [15]	-	8.39
DSN [10]	-	7.97
Highway [18]	-	7.60
ResNet v1(110) [4]	1.7M	6.41
Stochastic Depth v1(110) [6]	1.7M	24.58
ResNet v2 Ours (20) [5]	1.7M	28.08
SwapOut v1(20) W×2	1.09M	6.58
ResNet v2 (1001) [5]	10.2M	4.92
SwapOut v2(32) W×4	7.43M	4.76

Swapout은 CIFAR-10과 CIFAR-100에서 비교 가능한 ResNet 대비 정확도를 향상시킨다.
32-layer 더 넓은 Swapout 모델이 두 CIFAR 데이터셋에서 1001-layer ResNet의 성능과 일치한다.
Swapout으로 너비를 늘리면 상당한 이득이 생기고 더 많은 매개변수를 가진 더 깊은 ResNet보다 우수할 수 있다.
확률적 추론(여러 샘플의 예측 평균화)이 Swapout에서 일관되게 결정론적 추론보다 우수하다.
다양한 확률적 학습 스케줄이 성능에 크게 영향을 미치며, 초기 층의 무작위성이 적을수록 일반적으로 성능이 더 좋다.
Swapout은 매개변수 효율적인 이득을 달성하여 때로는 더 적은 매개변수로 더 깊은 모델을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.