[논문 리뷰] Self-Tuning Networks: Bilevel Optimization of Hyperparameters using Structured Best-Response Functions
STNs는 컴팩트한 하이퍼네트워크 기반 게이트로 최적 반응을 근사하여 온라인으로 하이퍼파라미터를 학습하며, 이산적이고 확률적인 하이퍼파라미터를 가능하게 하고 PTB, CIFAR-10 등에서 성능을 향상시키는 일정들을 만들어낸다.
Hyperparameter optimization can be formulated as a bilevel optimization problem, where the optimal parameters on the training set depend on the hyperparameters. We aim to adapt regularization hyperparameters for neural networks by fitting compact approximations to the best-response function, which maps hyperparameters to optimal weights and biases. We show how to construct scalable best-response approximations for neural networks by modeling the best-response as a single network whose hidden units are gated conditionally on the regularizer. We justify this approximation by showing the exact best-response for a shallow linear network with L2-regularized Jacobian can be represented by a similar gating mechanism. We fit this model using a gradient-based hyperparameter optimization algorithm which alternates between approximating the best-response around the current hyperparameters and optimizing the hyperparameters using the approximate best-response function. Unlike other gradient-based approaches, we do not require differentiating the training loss with respect to the hyperparameters, allowing us to tune discrete hyperparameters, data augmentation hyperparameters, and dropout probabilities. Because the hyperparameters are adapted online, our approach discovers hyperparameter schedules that can outperform fixed hyperparameter values. Empirically, our approach outperforms competing hyperparameter optimization methods on large-scale deep learning problems. We call our networks, which update their own hyperparameters online during training, Self-Tuning Networks (STNs).
연구 동기 및 목표
- 하이퍼파라미터 최적화를 가중치 학습이 하이퍼파라미터에 의존하는 이층 문제로 제시한다.
- 신경망에 대한 확장 가능하고 메모리 효율적인 최적 반응 근사 제안을 제안한다.
- 하이퍼파라미터를 학습에 대한 미분 없이 온라인으로 업데이트하는 Self-Tuning Networks를 개발한다.
- STN이 대규모 데이터셋에서 성능을 향상시키는 하이퍼파라미터 스케줄을 제공함을 입증한다.
제안 방법
- 상위 레벨 목표 F와 하위 레벨 목표 f를 갖는 이층 문제를 형식화하고 최적 반응 w*(λ) 을 도입한다.
- 최적 반응을 매개변수 함수 φ로 근사하고 근사 최적 반응(식(3))을 사용하여 λ를 최적화한다.
- 메모리 효율적인 최적 반응 모듈을 제안하는데, 각 레이어의 가중치/편향은 Ŵφ(λ)=Welem+(Vλ)⊙rowWhyper 이고 b̂φ(λ)=belem+(Cλ)⊙bhyper (식(10)).
- L2 야곱 정규화(Jacobian)로 두 층 선형 네트워크에서 게이트된 최적 반응의 정확성을 주장한다(정리 2).
- 제곱형 하위 레벨 손실 아래에서 올바른 야곱 정보를 보존하는 선형(해석적) 게이팅 변형을 제안한다(정리 3).
- 탐색과 지역적 충실도 사이의 균형을 맞추기 위해 엔트로피 항을 포함한 σ의 하이퍼파라미터 이웃의 적응적 샘플링을 설명한다(식(15)).
실험 결과
연구 질문
- RQ1W*(λ) 의 컴팩트하고 미분 가능한 근사 맵을 학습하여 그라디언트 기반 하이퍼파라미터 최적화를 가능하게 할 수 있는가?
- RQ2온라인으로 조정된 하이퍼파라미터가 대규모 신경망 구조에서 고정 하이퍼파라미터를 능가하는 스케줄을 제공하는가?
- RQ3훈련 손실에 대한 미분 없이 이산적이고 확률적인 하이퍼파라미터를 처리할 수 있는가?
- RQ4제안된 STN 아키텍처가 깊은 네트워크에 대해 확장 가능하고 표준 벤치마크(PTB, CIFAR-10)에서 실용적인가?
주요 결과
- STNs 은 학습 중에 고정된 하이퍼파라미터 값보다 성능이 우수한 하이퍼파라미터 스케줄을 발견한다. 예: PTB와 CIFAR-10 실험에서.
- 그리드 탐색, 랜덤 탐색, 베이지안 최적화와 비교하여 STNs 가 PTB 및 CIFAR-10 작업에서 더 빠르게 개선된 검증/테스트 성능을 얻는다.
- 선형 게이팅을 이용한 국소적으로 근사된 최적 반응은 2차 하위 수준 손실에서 효과를 유지하며 올바른 기울기 정보를 보존한다(정리 3).
- 해당 선형 최적 반응 구조(Ŵφ(λ), b̂φ(λ)) 는 메모리 효율적이며 가중치는 O(Dout(2Din+n)) 매개변수, 바이어스는 O(Dout(2+n)) 비용이 필요하다(식(11)).
- STNs 는 해석가능한 하이퍼파라미터 스케줄을 생성하여 예를 들어 학습 동안 드롭아웃 구성 요소를 다양화하고 일반화를 개선하는 커리큘럼을 형성한다.
- PTB 에서 STN 기반 LSTM 은 검증 perplexity 70.30, 테스트 perplexity 67.68 로 그리드, 랜덤, 베이지안 방법보다 우수하다(Table 2).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.