QUICK REVIEW

[논문 리뷰] Principled Weight Initialization for Hypernetworks

Oscar Chang, Lampros Flokas|arXiv (Cornell University)|2023. 12. 13.

Adversarial Robustness in Machine Learning참고 문헌 34인용 수 35

한 줄 요약

본 논문은 하이퍼네트워크를 위한 하이퍼팬 초기화를 제안하고, 주된 활성화/그레이디언트 스케일을 보존하기 위한 원리 기반 분산 기반 스킴(hyperfan-in 및 hyperfan-out)을 제공하여 임의 초기화에 비해 안정성 및 수렴성을 향상시킨다.

ABSTRACT

Hypernetworks are meta neural networks that generate weights for a main neural network in an end-to-end differentiable manner. Despite extensive applications ranging from multi-task learning to Bayesian deep learning, the problem of optimizing hypernetworks has not been studied to date. We observe that classical weight initialization methods like Glorot & Bengio (2010) and He et al. (2015), when applied directly on a hypernet, fail to produce weights for the mainnet in the correct scale. We develop principled techniques for weight initialization in hypernets, and show that they lead to more stable mainnet weights, lower training loss, and faster convergence.

연구 동기 및 목표

고전적 가중치 초기화가 하이퍼네트워크가 메인넷 가중치를 생성할 때 왜 실패하는지 식별한다.
하이퍼네트워크에 맞춘 원리 기반 분산 기반 초기화 규칙을 개발한다.
이론적으로 그리고 실험적으로 하이퍼팬 초기화가 활성화와 그레이디언트를 안정시키고 수렴을 개선함을 보인다.

제안 방법

하이퍼네트워크에 대한 하이퍼팬-인 및 하이퍼팬-아웃 초기화를 도출하기 위해 분산 분석을 사용한다.
하이퍼넷을 메인넷 가중치의 생성기로 모델링하고 순전파/역전파 분산 전달을 분석한다.
H, h, G, g 층에 대해 메인넷 활성화/그레이디언트 분산을 보존하기 위한 구체적 분산 공식을 제안한다.
하이퍼넷이 가중치만 출력하는 경우와 가중치와 바이어스 모두를 출력하는 경우를 구분한다.
하이퍼넷 가중치 분산을 고전적 fan-in/fan-out 초기화의 의미와 정렬시키는 초기화 스킴을 제공한다.]
research_questions:[

Figure 1: Mainnet Activations before the Start of Training on MNIST.

실험 결과

연구 질문

RQ1메인넷 가중치를 생성하는 하이퍼네트워크에 고전적 초기화 스킴이 적용될 때 왜 실패하는가?
RQ2깊이에 따라 메인넷 활성화와 그레이디언트의 안정적 분산을 유지하도록 하이퍼네트워크를 어떻게 초기화할 수 있을까?
RQ3하이퍼팬-인 및 하이퍼팬-아웃 초기화가 서로 다른 메인넷 아키텍처와 작업에서 안정적인 학습을 가능하게 하는가?

주요 결과

하이퍼넷에 대한 고전적 초기화는 메인넷에서 활성화가 폭주를 일으킨다.
하이퍼팬-인과 하이퍼팬-아웃 초기화는 메인넷 분산을 보존하고 안정적인 학습을 가능하게 한다.
MNIST 피드포워드 실험에서 하이퍼팬 방법은 초기 손실을 더 낮추고 수렴 속도를 높인다.
하이퍼팬 초기화는 Xavier/Kaiming 초기화가 하이퍼넷에서 실패할 때도 학습을 가능하게 한다(예: CIFAR-10, ImageNet 베이지안 설정).
하이퍼팬-인과 하이퍼팬-아웃은 모든 작업에서 SGD와 함께 작동하며 실용적으로 큰 차이가 없다.

Figure 2: Evolution of Hypernet Output Layer Activations during Training on MNIST. Xavier init results in unstable mainnet weights throughout training, while hyperfan-in and hyperfan-out init result in mainnet weights that stabilize quickly.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.