QUICK REVIEW

[논문 리뷰] Beyond Backprop: Online Alternating Minimization with Auxiliary Variables

Anna Choromanska, Benjamin Cowen|arXiv (Cornell University)|2018. 06. 24.

Stochastic Gradient Optimization Techniques인용 수 33

한 줄 요약

이 논문은 백프로파게이션의 기울기 체인 룰을 피하기 위해 보조 변수를 사용하여 딥 네ural 네트워크를 훈련하기 위한 새로운 온라인(스토케스틱/미니배치) 교대 최소화(AM) 방법을 제안한다. 이는 스토케스틱 환경에서 AM에 대한 첫 이론적 수렴 보장을 제공하며, MNIST, CIFAR-10, HIGGS 데이터셋에서 경쟁 가능한 정확도를 달성했고, SGD 및 Adam과 유사한 런타임을 보였다.

ABSTRACT

Despite significant recent advances in deep neural networks, training them remains a challenge due to the highly non-convex nature of the objective function. State-of-the-art methods rely on error backpropagation, which suffers from several well-known issues, such as vanishing and exploding gradients, inability to handle non-differentiable nonlinearities and to parallelize weight-updates across layers, and biological implausibility. These limitations continue to motivate exploration of alternative training algorithms, including several recently proposed auxiliary-variable methods which break the complex nested objective function into local subproblems. However, those techniques are mainly offline (batch), which limits their applicability to extremely large datasets, as well as to online, continual or reinforcement learning. The main contribution of our work is a novel online (stochastic/mini-batch) alternating minimization (AM) approach for training deep neural networks, together with the first theoretical convergence guarantees for AM in stochastic settings and promising empirical results on a variety of architectures and datasets.

연구 동기 및 목표

기울기 소실 문제, 미분 불가능한 비선형성, 생물학적으로 구현 가능하지 않은 점 등의 백프로파게이션의 한계를 해결한다.
기존의 보조 변수 방법은 주로 오프라인(배치) 방식이며 온라인 또는 계속 학습에 부적합하므로 이를 극복한다.
백프로파게이션 없이 계층별로 국소적인 가중치 갱신이 가능한 메모리 효율적인 온라인 스토케스틱 교대 최소화 프레임워크를 개발한다.
스토케스틱(미니배치) 환경에서 교대 최소화에 대한 첫 이론적 수렴 보장을 제공한다.
완전 연결 네트워크 및 MNIST와 CIFAR-10에서의 LeNet-5를 포함한 다양한 아키텍처와 데이터셋에서 실증적 효과를 입증한다.

제안 방법

각 계층에 보조 변수를 도입하여 깊은 네트워크의 중첩된 목적함수를 국소 하위문제로 분리함으로써, 가중치와 활성화에 대해 교대 최소화를 가능하게 한다.
두 가지 변형을 제안한다: AM-Adam은 가중치 갱신에 적응형 기울기 업데이트를 사용하고, AM-mem은 Mairal 등(2009)의 온라인 사전 학습 기반의 대체 목적함수를 활용한다.
교대 최적화를 수행한다: 고정된 가중치에 대해 보조 변수(활성화)를 먼저 갱신한 후, 각 계층의 모든 가중치를 국소 정보를 바탕으로 동시에 갱신한다.
미니배치 스토케스틱 업데이트를 사용하여 온라인 학습을 가능하게 하며, 전체 배치 계산을 피하고 대규모 데이터셋에 대한 확장성을 확보한다.
라그랑주 승수를 회피함으로써 표준 SGD 수준의 메모리 사용량을 유지하면서도 국소적이고 생물학적으로 타당한 갱신의 이점을 유지한다.
최적화 문제를 구성함으로써 가중치 갱신이 오직 국소 신호와 현재 계층의 활성화에만 의존하도록 하여 계산 및 생물학적 타당성을 향상시킨다.

실험 결과

연구 질문

RQ1보조 변수를 사용한 교대 최소화를 온라인, 스토케스틱(미니배치) 환경에 적응시켜 계속 학습 및 확장 가능한 딥 러닝을 가능하게 할 수 있는가?
RQ2제안된 온라인 AM 방법은 스토케스틱 환경에서 수렴하는가? 이론적 보장은 가능할 수 있는가?
RQ3AM 기반 방법의 성능은 Adam 및 SGD와 같은 표준 백프로파게이션 기반 방법과 비교해 어떤가? 다양한 아키텍처와 데이터셋에서의 성능을 평가한다.
RQ4백프로파게이션에 의존하지 않고도 비선형성의 비가역성과 기울기 소실 문제를 해결할 수 있는가?
RQ5기존의 백프로파게이션 및 보조 변수 기반 기준 대비 제안된 방법의 계산 효율성과 메모리 사용량은 어떠한가?

주요 결과

완전 연결 네트워크를 사용한 MNIST에서 제안된 온라인 AM 방법은 백프로파게이션을 피함에도 불구하고 97.8%의 테스트 정확도를 달성했으며, Adam 및 SGD와 유사한 성능을 보였다.
CIFAR-10에서 AM-Adam 변형은 계층당 500개의 뉴런을 사용해 87.2%의 정확도를 기록했고, 최적의 초모수 설정 하에서 SGD를 능가하고 Adam과 동등한 성능을 보였다.
HIGGS 데이터셋에서 AM-Adam은 동일한 학습률과 아키텍처로 Adam의 70.1% 정확도를 재현했으며, 고차원이고 실제 세계적인 데이터에서의 강건성을 입증했다.
런타임 측정 결과, AM-Adam은 Adam 및 SGD와 거의 유사한 성능을 보였다. 예를 들어, LeNet-5/MNIST에서 450개의 미니배치에 대해 443초가 소요되었으며, 계산 가능성을 입증했다.
스토케스틱 환경에서 수렴을 달성했고, 공식적인 이론적 보장을 제시했으며, 이는 온라인 딥 러닝에서 교대 최소화에 대해 처음으로 이루어진 결과이다.
AM-mem 및 AM-Adam 변형은 다양한 가중치 초기화 및 데이터셋에서 일관된 성능을 보였으며, 기준 방법 대비 최소한의 초모수 민감도를 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.