QUICK REVIEW

[논문 리뷰] Learning to solve the credit assignment problem

Benjamin Lansdell, Prashanth Ravi Prakash|arXiv (Cornell University)|2019. 06. 03.

Scheduling and Optimization Algorithms참고 문헌 56인용 수 18

한 줄 요약

이 논문은 생물학적으로 타당한 학습 알고리즘을 제안하며, 강화학습을 사용해 피드백 가중치를 훈련시켜 역전파 기울기를 근사한다. 편향과 전역 보상 신호를 사용함으로써, 피드포워드 및 컨볼루션 네트워크에서 정확한 기울기 근사를 학습하며, 대칭 피드백이나 정밀한 학습 규칙이 필요하지 않다. 성능은 역전파와 유사하거나 이를 초월한다.

ABSTRACT

Backpropagation is driving today's artificial neural networks (ANNs). However, despite extensive research, it remains unclear if the brain implements this algorithm. Among neuroscientists, reinforcement learning (RL) algorithms are often seen as a realistic alternative: neurons can randomly introduce change, and use unspecific feedback signals to observe their effect on the cost and thus approximate their gradient. However, the convergence rate of such learning scales poorly with the number of involved neurons. Here we propose a hybrid learning approach. Each neuron uses an RL-type strategy to learn how to approximate the gradients that backpropagation would provide. We provide proof that our approach converges to the true gradient for certain classes of networks. In both feedforward and convolutional networks, we empirically show that our approach learns to approximate the gradient, and can match or the performance of exact gradient-based learning. Learning feedback weights provides a biologically plausible mechanism of achieving good performance, without the need for precise, pre-specified learning rules.

연구 동기 및 목표

생물학적 신경망에서 뉴런이 전역 결과에 기여하는 바를 결정할 수 있도록 크레딧 할당 문제를 해결하기 위해.
큰 네트워크에서 강화학습의 한계를 극복하기 위해, 고분산과 느린 수렴 문제를 해결하기 위해.
피드백 가중치를 강화학습으로 훈련시켜 진정한 기울기를 근사하는 하이브리드 학습 시스템을 개발하여 효율적이고 확장 가능한 학습을 가능하게 하기 위해.
대칭 피드백 가중치나 사전 지정된 학습 규칙이 필요 없는 생물학적으로 타당한 역전파의 대안을 제공하기 위해.

제안 방법

각 뉴런은 강화학습 전략(REINFORCE 스타일)을 사용해, 역전파가 제공할 기울기를 근사하는 피드백 가중치를 학습한다.
피드백 가중치는 전역 보상 신호와 은닉층 활성화의 확률적 편향을 사용해 기울기 방향을 추정함으로써 업데이트된다.
피드백 가중치가 추정 기울기와 진정한 기울기 간 오차를 최소화하도록 온라인 리지 회귀를 적용한다.
피드백 가중치 행렬 $ B $ 는 편향된 피드백 신호를 사용해 은닉층 활성화에 대한 손실의 기울기를 예측하도록 훈련된다.
이 방법은 완전히 연결된 네트워크와 컨볼루션 신경망 모두에 적용되며, 확률적 경사 하강법 및 적응형 최적화 기법을 사용해 훈련된다.
온도 조절 단계에서는 피드포워드 가중치를 동결하고 피드백 가중치만 적응시켜 훈련 안정성을 향상시킨다.

실험 결과

연구 질문

RQ1강화학습 기반 방법이 생물학적으로 타당한 방식으로 진정한 기울기를 근사하는 데 필요한 피드백 가중치를 훈련시킬 수 있는가?
RQ2이 방법이 피드포워드 및 컨볼루션 네트워크에서 정확한 역전파 성능과 유사한 성능을 달성하는가?
RQ3이 방법은 피드백 정렬 및 합성 기울기와 비교해 네트워크 깊이와 너비에 따라 어떻게 스케일링되는가?
RQ4이 방법은 컨볼루션 네트워크와 깊은 아키텍처에서 피드백 정렬의 한계를 극복할 수 있는가?
RQ5편향 노이즈와 피드백 가중치 적응이 학습 안정성과 수렴에 미치는 영향은 무엇인가?

주요 결과

특정 네트워크 유형에서 이 방법은 진정한 기울기에 수렴하며, 특정 조건 하에서 일致성에 대한 이론적 증명이 존재한다.
피드포워드 네트워크에서는 정확한 역전파와 동일하거나 이를 초월하는 성능를 기록하며, 피드백 정렬 및 합성 기울기보다 뛰어나다.
이 방법은 피드백 정렬이 실패하는 컨볼루션 신경망(CIFAR10 및 CIFAR100)에서도 성공적으로 학습하여 경쟁 가능한 정확도를 달성한다.
행렬이 상당히 다를지라도, 피드백 가중치는 진정한 기울기와 뚜렷한 부호 일致성을 보이는 기울기 근사를 생성한다.
초기화 값 변화에 대해 강건하며, 일반화를 향상시키는 최적의 노이즈 수준은 무작위 탐색을 통해 확보되었다.
제거 실험을 통해 성능 향상 요인이 노이즈 자체가 아니라 강화학습 기반 피드백 가중치 훈련임을 확인하였으며, 진정한 기울기를 사용하는 매칭 규칙 및 합성 기울기와 비교해도 이는 우월하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.