[논문 리뷰] Conducting Credit Assignment by Aligning Local Representations
이 논문은 각 층의 출력을 자체 표현 능력에서 유도된 목표로 정렬함으로써 백프로파게이션에 의존하지 않고 딥 네ural 네트워크를 안정적으로 훈련시키는 로컬 표현 정렬(LRA)이라는 신뢰도 높은 신용 할당 방법을 제안한다. LRA는 초기화가 0이거나 비가역적 활성화 함수를 사용하는 경우에도 성공하며, MNIST와 Fashion-MNIST에서 백프로파게이션, 타겟 전파, 피드백 정렬보다 뛰어난 성능을 보이며 생물학적으로 유사한 이산적 또는 확률적 단위를 사용한 훈련을 가능하게 한다.
Using back-propagation and its variants to train deep networks is often problematic for new users. Issues such as exploding gradients, vanishing gradients, and high sensitivity to weight initialization strategies often make networks difficult to train, especially when users are experimenting with new architectures. Here, we present Local Representation Alignment (LRA), a training procedure that is much less sensitive to bad initializations, does not require modifications to the network architecture, and can be adapted to networks with highly nonlinear and discrete-valued activation functions. Furthermore, we show that one variation of LRA can start with a null initialization of network weights and still successfully train networks with a wide variety of nonlinearities, including tanh, ReLU-6, softplus, signum and others that may draw their inspiration from biology. A comprehensive set of experiments on MNIST and the much harder Fashion MNIST data sets show that LRA can be used to train networks robustly and effectively, succeeding even when back-propagation fails and outperforming other alternative learning algorithms, such as target propagation and feedback alignment.
연구 동기 및 목표
- 기울기 소실/폭발 문제와 가중치 초기화에 대한 민감성으로 인해 딥 네트워크에서 백프로파게이션의 불안정성을 해결하기 위해.
- 아키텍처 수정이나 가역적 활성화 함수가 필요 없는 훈련 알고리즘을 개발하기 위해.
- 생물학적 신경 시스템에서 영감을 얻은 비가역적 또는 이산적 단위를 갖는 네트워크의 훈련을 가능하게 하기 위해.
- 로컬 표현 정렬에 기반해 훈련 깊이를 동적으로 조정하는 신용 할당 메커니즘을 제공하기 위해.
- 표준 방법이 실패할 경우에도 효과적인 강건한 백프로파게이션의 대안을 제공하기 위해.
제안 방법
- LRA는 각 층이 자신의 가능한 출력 공간에서 유도된 목표 표현을 갖는다고 간주하여 실현 가능하고 효과적인 갱신을 보장한다.
- 각 층에서 오차 신호를 계산하기 위해 국소 손실 함수를 사용하며, 목표는 고위 층의 피드백을 포함한 수정된 입력에 활성화 함수를 적용한 것으로 정의된다.
- 가역적 네트워크의 경우 LRA는 미분 기반 갱신을 계산학적으로 사용하고, 비가역적 단위의 경우 고정된 오차 피드백 행렬을 사용하는 피드백 정렬 변형을 적용한다.
- 이 방법은 순환 네트워크를 시간 단계에 따라 전개하여 각 시간 단계의 전개된 부분 그래프에 LRA를 적용함으로써, 백프로파게이션를 통한 시간 역행 없이 RNN을 훈련시킬 수 있다.
- 은닉 층의 목표는 $\mathbf{y}^{1}_{z,t} = \phi(\mathbf{h}^{1}_{t} - \beta(E\mathbf{e}^{2}_{t}))$ 로 계산되며, 여기서 $\mathbf{e}^{2}_{t}$ 는 출력 층의 오차이고 $E$ 는 고정된 피드백 행렬이다.
- 파라미터 갱신은 $\Delta U = \sum_{t=1}^{T} \mathbf{e}^{2}_{t}(\mathbf{z}^{1}_{t})^T$ 로 계산되며, $W$ 와 $V$ 에 대해서도 유사한 형태로 국소 오차 도함수와 활성화 기울기의 곱을 사용한다.
실험 결과
연구 질문
- RQ1가중치 초기화가 열악하거나 0일 경우에도 안정적인 성능을 보이는 신용 할당 방법을 설계할 수 있는가?
- RQ2아키텍처 수정 없이 비가역적 또는 이산적 활성화 함수를 사용하는 딥 네트워크를 효과적으로 훈련시킬 수 있는가?
- RQ3비선형성의 종류에 관계없이 깊은 아키텍처에서 기울기 소실 문제를 피할 수 있는 학습 알고리즘이 존재하는가?
- RQ4LRA의 피드백 기반 변형이 백프로파게이션과 피드백 정렬보다 유사하거나 더 뛰어난 훈련 속도와 강건성을 확보할 수 있는가?
- RQ5LRA는 로컬 표현 정렬에 기반해 신용 할당의 깊이를 동적으로 조정할 수 있는가?
주요 결과
- LRA는 백프로파게이션과 타겟 전파가 완전히 실패하는 초기화가 0인 경우에도 네트워크를 성공적으로 훈련시킨다.
- MNIST와 Fashion-MNIST에서 LRA는 백프로파게이션, 타겟 전파, 피드백 정렬을 모두 능가하며, 특히 깊거나 비선형성이 높은 아키텍처에서 뛰어난 성능을 보인다.
- LRA의 피드백 기반 변형(LRA-fdbk)은 백프로파게이션만큼 빠르게 가역적 네트워크를 훈련시키지만 초기화에 대해 훨씬 더 강건한 성능을 보인다.
- LRA는 시그넘 함수나 베르누이 샘플링과 같은 이산적 활성화를 갖는 네트워크의 훈련을 가능하게 하며, 이는 기존의 백프로파게이션과 호환되지 않는다.
- 시퀀스를 전개하여 각 시간 단계에 동일한 정렬 원칙을 적용함으로써 LRA는 순환 네트워크에 적용 가능하며 계산적 타당성을 유지한다.
- 이 방법은 시간이 지남에 따라 의미 있는 갱신을 받는 층의 수를 동적으로 감소시키며, 후반 단계에서는 오직 상위 층들만 활발히 훈련된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.