[논문 리뷰] How to Initialize your Network? Robust Initialization for WeightNorm & ResNets
이 논문은 기울기 폭주/소실을 방지하기 위해 평균장 근사법을 사용하여, 잔차 연결이 있는지 여부에 관계없이 가중치 정규화된 ReLU 네트워크를 위한 이론적으로 타당한 초기화 전략을 제안한다. 제안된 방법은 깊은 네트워크에서 안정적인 학습을 가능하게 하고, 배치 정규화와의 일반화 갭을 줄이며, 손실 곡면의 낮은 곡률 영역에 초기화하여 큰 학습률을 허용한다.
Residual networks (ResNet) and weight normalization play an important role in various deep learning applications. However, parameter initialization strategies have not been studied previously for weight normalized networks and, in practice, initialization methods designed for un-normalized networks are used as a proxy. Similarly, initialization for ResNets have also been studied for un-normalized networks and often under simplified settings ignoring the shortcut connection. To address these issues, we propose a novel parameter initialization strategy that avoids explosion/vanishment of information across layers for weight normalized networks with and without residual connections. The proposed strategy is based on a theoretical analysis using mean field approximation. We run over 2,500 experiments and evaluate our proposal on image datasets showing that the proposed initialization outperforms existing initialization methods in terms of generalization performance, robustness to hyper-parameter values and variance between seeds, especially when networks get deeper in which case existing methods fail to even start training. Finally, we show that using our initialization in conjunction with learning rate warmup is able to reduce the gap between the performance of weight normalized and batch normalized networks.
연구 동기 및 목표
- 가중치 정규화된 딥 네트워크를 위한 공식적인 초기화 전략 부족 문제를 해결하기 위해.
- 전방 및 역전파 시 정보 흐름 문제(폭주/소실)를 방지할 수 있는 이론적으로 근거가 있는 초기화를 개발하기 위해.
- 가중치 정규화된 딥 네트워크에서 학습 안정성과 일반화 성능 향상을 위해.
- 가중치 정규화된 네트워크와 배치 정규화된 네트워크 간의 성능 격차를 줄이기 위해.
- 깊이 및 하이퍼파rameter가 다양하게 변하는 CIFAR 데이터셋에서 2,500개 이상의 실험을 통해 방법을 검증하기 위해.
제안 방법
- 가중치 정규화된 ReLU 네트워크를 위한 새로운 초기화 전략을 평균장 근사법을 사용하여 유도한다.
- 크기와 방향을 분리하기 위해 척도 인자(g)와 단위 노름 방향 행렬(Ŵ)을 통한 가중치 재정의를 수행한다.
- 초기화 시 은닉 활성화 노름이 층 간에 안정적으로 유지되는 이론적 조건을 설정한다.
- 피드포워드 및 잔차 아키텍처 모두에서 노름 일관성을 유지하기 위해 깊이에 따라 조정된 초기화 스케일링을 제안한다.
- 초기화 시 헤시안의 스펙트럼 노름을 계산하기 위해 파wer 메서드를 활용하여 곡률을 분석한다.
- 제안된 초기화를 학습률 웜업과 조합하여 성능을 추가로 향상시킨다.
실험 결과
연구 질문
- RQ1가중치 정규화된 ReLU 네트워크를 위한 이론적으로 타당한 초기화를 어떻게 설계할 수 있는가? 이는 기울기 폭주 또는 소실을 방지하기 위한 것이다.
- RQ2기존의 대체 방법과 비교해 볼 때, 제안된 초기화가 깊은 네트워크에서 학습 안정성과 일반화 성능을 향상시키는가?
- RQ3제안된 초기화가 가중치 정규화된 네트워크와 배치 정규화된 네트워크 간의 일반화 갭을 줄일 수 있는가?
- RQ4기본 초기화 방법과 비교해 볼 때, 제안된 초기화가 왜 더 큰 학습률을 허용하는가?
- RQ5제안된 초기화가 네트워크 깊이, 하이퍼파ram터 선택 및 랜덤 시드 변동에 대해 강건한가?
주요 결과
- 학습률 웜업과 결합했을 때, CIFAR-10에서 ResNet-56의 테스트 오차는 7.20%로 감소하고 ResNet-110는 6.69%로 감소하여 배치 정규화 성능을 도달하거나 초월한다.
- CIFAR-100에서 컷아웃과 웜업을 적용했을 때, 오차는 ResNet-164 기준 25.31%로 감소하여 배치 정규화의 25.52% 오차에 거의 근접한다.
- 초기화 시 헤시안의 로그 스펙트럼 노름은 CIFAR-10 기준 1.31, CIFAR-100 기준 1.56를 기록하여 다른 방법보다 유의미하게 낮아 곡률이 낮음을 나타낸다.
- 기존 초기화 방법이 학습을 시작하지 못하는 매우 깊은 네트워크에서도 안정적인 학습이 가능하게 한다.
- 제안된 초기화를 사용할 경우, 랜덤 시드에 따른 성능 변동 범위가 기존 표준 기준보다 유의미하게 감소한다.
- 학습률 웜업과 함께 사용할 경우, 가중치 정규화된 네트워크와 배치 정규화된 네트워크 간의 일반화 갭을 줄이는 데 성공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.