QUICK REVIEW

[논문 리뷰] Decoupled Neural Interfaces using Synthetic Gradients

Max Jaderberg, Wojciech Marian Czarnecki|arXiv (Cornell University)|2016. 08. 18.

Advanced Neural Network Applications참고 문헌 28인용 수 76

한 줄 요약

이 논문은 합성 그래디언트(학습된 모델로 국소적 오차 그래디언트를 예측함)를 사용하는 분리된 신경 인터페이스(DNI)를 소개한다. 이를 통해 백프로파게이션의 순차적 의존성을 해소하여 신경망 모듈의 이국적, 독립적인 학습을 가능하게 한다. 주요 기여는 전방 및 역방향 전파를 분리함으로써 피드포워드, 순환, 계층적 네트워크에서 더 빠르고 확장 가능한 학습을 가능하게 한다.

ABSTRACT

Training directed neural networks typically requires forward-propagating data through a computation graph, followed by backpropagating error signal, to produce weight updates. All layers, or more generally, modules, of the network are therefore locked, in the sense that they must wait for the remainder of the network to execute forwards and propagate error backwards before they can be updated. In this work we break this constraint by decoupling modules by introducing a model of the future computation of the network graph. These models predict what the result of the modelled subgraph will produce using only local information. In particular we focus on modelling error gradients: by using the modelled synthetic gradient in place of true backpropagated error gradients we decouple subgraphs, and can update them independently and asynchronously i.e. we realise decoupled neural interfaces. We show results for feed-forward models, where every layer is trained asynchronously, recurrent neural networks (RNNs) where predicting one's future gradient extends the time over which the RNN can effectively model, and also a hierarchical RNN system with ticking at different timescales. Finally, we demonstrate that in addition to predicting gradients, the same framework can be used to predict inputs, resulting in models which are decoupled in both the forward and backwards pass -- amounting to independent networks which co-learn such that they can be composed into a single functioning corporation.

연구 동기 및 목표

딥 신경망에서 업데이트 및 역방향 잠금 문제를 해결함으로써 학습을 순차적이고 동기적으로만 수행하도록 제한하는 문제를 해결한다.
백프로파게이션을 국소적으로 예측된 합성 그래디언트로 대체함으로써 신경망 모듈의 독립적, 이방향 학습을 가능하게 한다.
또한 예측된 합성 입력을 통해 전방 잠금까지 제거함으로써 전방 및 역방향 전파 모두에서 완전한 분리를 실현한다.
깊이 있는 피드포워드 네트워크, 장기 의존성을 가진 RNN, 계층적 다중네트워크 시스템에서 이 방법의 효과성을 입증한다.
동기화 병목 현상을 제거함으로써 분산 및 다중 에이전트 학습 환경에서 더 빠른 학습과 향상된 확장성을 달성한다.

제안 방법

표준 백프로파게이션을 대체하여, 모듈의 국소적 활성화 정보만을 사용해 오차 그래디언트를 예측하는 학습된 모델인 합성 그래디언트를 사용한다.
현재 활성화 정보만을 기반으로 모듈의 입력에 대한 손실의 진짜 그래디언트를 예측하는 합성 그래디언트 모델(작은 신경망)을 훈련한다.
예측된 합성 그래디언트를 사용해 모듈의 가중치를 즉시 업데이트함으로써, 하류 모듈의 실행이나 역방향 전파 완료를 기다리지 않는다.
합성 입력 모델을 도입하여 전방 및 역방향 전파를 모두 분리함으로써 완전한 이방향 학습을 가능하게 한다.
실제 그래디언트 또는 입력과의 차이를 최소화하는 미분 가능한 손실을 사용해 합성 그래디언트 및 입력 모델을 동시에 훈련한다.
공유 또는 별개의 아키텍처를 가진 피드포워드 네트워크, RNN, 계층적 다중네트워크 시스템에 이 프레임워크를 적용한다.

실험 결과

연구 질문

RQ1합성 그래디언트가 완전한 역방향 전파에 의존하지 않고도 신경망 모듈의 이방향 학습을 가능하게 할 수 있는가?
RQ2합성 그래디언트가 절단된 시간을 통한 백프로파게이션(BPTT)에 의해 제한되는 시퀀스 길이의 효과적인 연장에 얼마나 기여할 수 있는가?
RQ3이 프레임워크를 전방 전파까지 분리할 수 있도록 확장할 수 있는가? 이를 통해 모듈의 완전한 독립적 학습이 가능해지는가?
RQ4정확도와 학습 속도 측면에서 합성 그래디언트를 사용한 모델의 성능이 표준 백프로파게이션과 비교해 어떻게 되는가?
RQ5다른 시간 스케일을 가진 계층적 또는 다중 에이전트 신경 시스템에서 합성 그래디언트가 학습 효율을 향상시킬 수 있는가?

주요 결과

DNI 프레임워크는 각 모듈가 합성 그래디언트를 사용해 독립적으로 업데이트할 수 있도록 하여 업데이트 및 역방향 잠금을 완전히 제거함으로써 학습을 분리시켰다.
피드포워드 네트워크에서는 합성 그래디언트를 사용한 모델이 표준 백프로파게이션과 유사한 정확도를 달성하면서도 완전한 이방향 학습이 가능했다.
RNN의 경우, 합성 그래디언트 덕분에 일반적으로 절단된 BPTT로 50~100단계에 머무르는 것과는 달리 최대 1000단계까지의 매우 긴 시퀀스를 모델링할 수 있었다.
다른 시간 스케일을 가진 계층적 RNN 시스템에서, 더 빠른 네트워크는 합성 그래디언트를 사용할 경우 동기 학습 대비 최대 3배 빠른 속도로 학습이 이루어졌다.
합성 입력 모델 덕분에 전방 및 역방향 전파 모두에서 완전한 분리를 실현했으며, 이로써 네트워크는 서로 독립적으로 학습하면서도 하나의 기능적 시스템으로 조합될 수 있었다.
최소한의 하이퍼파rameter 튜닝으로도 다양한 아키텍처(예: CIFAR-10에서의 CNN, Penn Treebank에서의 문자 수준 언어 모델)에서 안정적이고 효과적인 성능 유지를 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.