[논문 리뷰] Flipout: Efficient Pseudo-Independent Weight Perturbations on Mini-Batches
Flipout은 미니배치 내에서 그래디언트 섭동의 상관관계를 제거하여 다양한 아키텍처에서 거의 이상적인 1/N 분산 감소를 달성하고, 더 큰 배치 학습을 가속하며 GPU 가속 진화 전략을 가능하게 한다.
Stochastic neural net weights are used in a variety of contexts, including regularization, Bayesian neural nets, exploration in reinforcement learning, and evolution strategies. Unfortunately, due to the large number of weights, all the examples in a mini-batch typically share the same weight perturbation, thereby limiting the variance reduction effect of large mini-batches. We introduce flipout, an efficient method for decorrelating the gradients within a mini-batch by implicitly sampling pseudo-independent weight perturbations for each example. Empirically, flipout achieves the ideal linear variance reduction for fully connected networks, convolutional networks, and RNNs. We find significant speedups in training neural networks with multiplicative Gaussian perturbations. We show that flipout is effective at regularizing LSTMs, and outperforms previous methods. Flipout also enables us to vectorize evolution strategies: in our experiments, a single GPU with flipout can handle the same throughput as at least 40 CPU cores using existing methods, equivalent to a factor-of-4 cost reduction on Amazon Web Services.
연구 동기 및 목표
- 정규화, 베이지안 추론, 탐색 및 ES를 위한 확률적 가중치 섭동 사용의 필요성을 제시한다.
- 미니배치 예제 간 공유 섭동으로 인한 비효율성을 해결한다.
- 편향 없이 편향 유지하면서 그래디언트를 상관관계 제거하는 Flipout을 도입한다.
- GPU/TPU에 적합한 효율적인 벡터화 구현을 제공한다.
- 아키텍처 전반에 걸친 분산 감소, 규제 효과 및 속도향상을 입증한다.
제안 방법
- 섭동이 독립적이고 0을 중심으로 대칭적임을 가정하고, 무작위 부호 반전하에서 섭동 불변성을 보인다.
- Flipout 정의: 예제별 섭동 DeltaW_n = DeltaW_hat ∘ (r_n s_n^T)를 무작위 ±1 벡터 r_n, s_n를 사용하여 정의한다.
- 공유된 섭동과의 분포 등가성을 보임으로써 상관 해에도 불구하고 편향되지 않은 그래디언트 추정치를 보이기 위해 증명한다.
- GPU 친화적 계산을 가능하게 하는 벡터화된 순전파 공식 Y = φ(XW̄ + ((X ∘ S) ΔŴ) ∘ R)을 제공한다.
- 그래디언트 분산을 alpha, beta, gamma 항으로 분해하여 분석하고 Flipout이 분산을 이상적인 1/N 스케일로 감소시킨다고 증명한다.
- 가우시안 섭동, DropConnect, LSTMs, CNN, 그리고 Evolution Strategies에의 적용과 GPU 기반 가속을 포함하여 논의한다.
실험 결과
연구 질문
- RQ1Flipout를 통한 예제별 상관 해가 FC, CNN, RNN 등 네트워크 유형 전반에서 이상적인 1/N 분산 감소를 달성하면서 편향 없는 그래디언트 추정치를 얻을 수 있는가?
- RQ2대형 배치 regime과 GPU 가속 ES 구현에서 Flipout이 학습 속도와 효율성에 어떤 영향을 미치는가?
- RQ3Flipout이 순환 연결(LSTM)을 얼마나 효과적으로 규제하고 드롭아웃 기반 방법에 비해 성능을 개선하는가?
- RQ4Flipout의 계산 오버헤드는 무엇이며 공유 섭동 및 로컬 재매개화 기법과 어떻게 비교되는가?
주요 결과
- Flipout은 편향 없는 그래디언트 추정치를 제공하고 완전히 연결, 합성곱 및 LSTM 아키텍처 전반에서 이상적인 1/N 분산 감소를 달성한다.
- 실험적으로 Flipout은 큰 미니배치 설정에서 상당한 분산 감소를 제공하고 학습 시간을 단축시킨다.
- Flipout은 드롭아웃 기반 방법보다 LSTM을 더 효과적으로 규제한다.
- Flipout은 GPU에서 벡터화된 Evolution Strategies를 가능하게 하며, 클라우드 플랫폼에서 비용을 줄이면서 40개 CPU 코어에 비슷한 처리량을 달성한다.
- 대형 배치 Bayes by Backprop 실험에서 Flipout은 공유 섭동 대비 반복 수가 약 3배 빠르게 수렴하며, 오버헤드로 인한 전체 속도향상은 약 1.5배이다.
- 다양한 작업에서 Flipout은 이전의 섭동 및 드롭아웃 기반 방법에 비해 더 빠른 수렴과 효과적인 규제성을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.