QUICK REVIEW

[논문 리뷰] Training Neural Networks with Local Error Signals

Arild Nøkland, Lars Hiller Eidnes|arXiv (Cornell University)|2019. 01. 20.

Domain Adaptation and Few-Shot Learning인용 수 130

한 줄 요약

이 논문은 레이어별 로컬 손실 신호가 로컬 예측 손실과 유사성 매칭 손실을 결합하여 글로벌 backpropagation에 근접하거나 글로벌 backpropagation과 동등하게 작동할 수 있음을 여러 이미지 데이터셋에서 보여주며, 백프로파게이션이 필요 없는 변형이 이전의 생물학적으로 타당한 방법들보다 성능이 우수함을 보여준다.

ABSTRACT

Supervised training of neural networks for classification is typically performed with a global loss function. The loss function provides a gradient for the output layer, and this gradient is back-propagated to hidden layers to dictate an update direction for the weights. An alternative approach is to train the network with layer-wise loss functions. In this paper we demonstrate, for the first time, that layer-wise training can approach the state-of-the-art on a variety of image datasets. We use single-layer sub-networks and two different supervised loss functions to generate local error signals for the hidden layers, and we show that the combination of these losses help with optimization in the context of local learning. Using local errors could be a step towards more biologically plausible deep learning because the global error does not have to be transported back to hidden layers. A completely backprop free variant outperforms previously reported results among methods aiming for higher biological plausibility. Code is available https://github.com/anokland/local-loss

연구 동기 및 목표

글로벌 backpropagation의 대안으로서 로컬로 생성된 오차를 이용한 층별 학습의 동기 부여 및 조사.
로컬 예측 손실과 유사성 매칭 손실의 결합이 최적화 및 일반화 성능을 향상시킴을 입증.
다양한 데이터셋과 네트워크 아키텍처에서 로컬 손실 학습을 평가하여 확장성과 실제성을 평가.
역생물학적으로 타당한 학습 가능성 평가를 위해 backpropagation 요구를 제거하거나 축소.

제안 방법

각 은닉층마다 로컬 학습 신호를 생성하는 두 개의 단일층 서브네트워크를 제안: 로컬 교차 엔트로피(예측) 손실과 유사성 매칭 손실.
은닉 활성화의 보정된 코사인 유사도(또는 상관관계) 행렬 간의 제곱 Frobenius 노름으로 유사성 매칭 손실을 정의.
정방향 패스 중 업데이트가 가능하고 역전 잠금을 피할 수 있도록, 이 로컬 손실들로 은닉층을 디커플링 방식으로 학습.
그라디언트 경로를 직접 피처 통계와 임의 타깃 투영으로 대체하여 backprop-free 변형(sim-bpf 및 pred-bpf)을 도입.
로컬 손실을 가중치로 결합하여 predsim(및 predsim-bpf) 손실로 결합 최적화를 수행.

실험 결과

연구 질문

RQ1레이어별 로컬 손실(예측 및 유사성 매칭)이 표준 비전 데이터셋에서 글로벌 backpropagation과 일치하거나 이를 근접하게 만들 수 있는가?
RQ2로컬 손실의 결합이 각각의 손실이 단독으로 달성하는 것보다 성능을 향상시키는가?
RQ3backpropagation 없는 변형(무작위 타깃 투영 또는 Hebbian-like 신호 사용)이 경쟁력 있는 결과를 낳는가, 그리고 어떤 조건에서 그런가?
RQ4로컬 손실이 수렴, 일반화 및 효율성(메모리, 병렬성)에 미치는 영향은 엔드-투-엔드 학습과 비교해 어떤가?
RQ5다양한 데이터셋에서 VGG-스타일 네트워크와 같은 아키텍처가 로컬 손실 학습에 특히 적합한가?

주요 결과

레이어별 로컬 손실 학습이 여러 데이터셋에서 글로벌 backpropagation에 근접하거나 이를 따라잡을 수 있다.
결합된 predsim(예측+유사성 매칭)은 어느 하나의 손실만 사용할 때보다 일관되게 성능을 향상시킨다.
무작위 타깃 투영을 사용하는 backprop-free 변형(sim-bpf, pred-bpf)은 강력한 결과를 달성하며, 이전에 보고된 생물학적으로 타당한 방법들 중 다수를 능가한다.
다수의 데이터셋에서 predsim은 로컬 손실 변형 중 최적의 테스트 오차를 자주 낳으며, VGG 스타일 네트워크 같은 아키텍처에서도 엔드투엔드 학습에 필적할 수 있다.
로컬 손실은 메모리 요구를 줄이고 병렬 또는 탐욕적 레이어별 학습을 가능하게 하며도 경쟁력 있는 정확도를 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.