QUICK REVIEW

[논문 리뷰] Rotate your Networks: Better Weight Consolidation and Less Catastrophic Forgetting

Xialei Liu, Marc Masana|arXiv (Cornell University)|2018. 02. 08.

Domain Adaptation and Few-Shot Learning참고 문헌 21인용 수 35

한 줄 요약

이 논문은 순차적 학습에서 치명적인 잊음(catastrophic forgetting)을 줄이기 위해 신경망 파rameter 공간을 회전시켜 피셔 정보 행렬(Fisher Information Matrix)을 근사적으로 대각화하는 R-EWC라는 방법을 제안한다. 이는 기존 EWC보다 훨씬 우수한 지속적 학습 성능을 달성하며, 예시 데이터를 사용하지 않아도 된다.

ABSTRACT

In this paper we propose an approach to avoiding catastrophic forgetting in sequential task learning scenarios. Our technique is based on a network reparameterization that approximately diagonalizes the Fisher Information Matrix of the network parameters. This reparameterization takes the form of a factorized rotation of parameter space which, when used in conjunction with Elastic Weight Consolidation (which assumes a diagonal Fisher Information Matrix), leads to significantly better performance on lifelong learning of sequential tasks. Experimental results on the MNIST, CIFAR-100, CUB-200 and Stanford-40 datasets demonstrate that we significantly improve the results of standard elastic weight consolidation, and that we obtain competitive results when compared to other state-of-the-art in lifelong learning without forgetting.

연구 동기 및 목표

순차적 태스크 학습에서 새로운 태스크에 대해 훈련할 때 이전에 학습한 태스크를 잊는 치명적인 잊음을 해결하기 위해.
기존 EWC의 한계를 극복하기 위해, 피셔 정보 행렬(FIM)이 대각행렬임을 가정하는 것인데, 이 조건은 실질적으로 거의 만족되지 않기 때문이다.
회전을 통해 네트워크의 파라미터 공간을 재정의함으로써 FIM을 더 대각화하게 하여 EWC의 가중치 통합 성능을 향상시키기 위해.
이전 태스크의 예시 데이터를 저장하지 않고도 더 나은 지속적 학습 성능를 달성하기 위해.
네트워크 아키텍처와 추론 방식을 유지하면서도 실용적이고 학습 가능한 방법으로 최적의 파라미터 공간 회전을 근사하기 위해.

제안 방법

이 방법은 중간 특징 표현에 학습된 회전을 적용하여 네트워크를 재정의함으로써 간접적으로 파라미터 공간을 회전시킨다.
이 회전은 추가적인 고정 가중치 컨볼루션 및 완전 연결 레이어를 통해 구현되며, 학습 가능한 파라미터 수를 늘리지 않는다.
이 회전은 FIM의 주성분을 좌표축과 일치시켜 대각 근사가 더 정확해지도록 한다.
원래 네트워크와 동일한 순전파 출력을 유지하므로 변환으로 인한 성능 저하가 없다.
회전된 파라미터 공간에서 EWC를 적용하면 FIM의 대각 행렬 가정이 더 잘 충족되며, 이는 더 나은 정규화를 이끈다.
회전은 표준 backpropagation를 사용해 엔드 투 엔드로 학습되며, 수렴 후에는 회전 레이어의 가중치가 고정된다.

실험 결과

연구 질문

RQ1네트워크의 파라미터 공간을 재정의함으로써 EWC에서 피셔 정보 행렬의 대각 근사가 향상될 수 있는가?
RQ2회전된 파라미터 공간은 순차적 학습에서 더 나은 가중치 통합과 치명적인 잊음을 줄이는 데 기여하는가?
RQ3예시 재생 없이 R-EWC는 표준 EWC 및 다른 최신 기술보다 어떻게 비교되는가?
RQ4학습 가능한 파라미터 수를 늘리지 않고도 이 회전을 효율적으로 구현할 수 있는가?
RQ5특히 태스크 수가 증가할수록 이 방법은 다수의 순차적 태스크에서 성능을 유지하는가?

주요 결과

R-EWC는 MNIST, CIFAR-100, CUB-200, Stanford-40을 포함한 모든 평가 데이터셋에서 표준 EWC보다 유의미하게 뛰어난 성능을 보였으며, 시간이 지날수록 성능 격차가 커졌다.
4개 태스크가 있는 Stanford-40 Actions 데이터셋에서 R-EWC는 이전 태스크 평균 정확도 37.2%를 달성했고, 표준 EWC는 23.0%였다.
4개 태스크가 있는 CIFAR-100에서 R-EWC는 EWC보다 약 5%p 높은 평균 정확도를 기록했으며, Learning Without Forgetting(LwF)를 초월했다.
예시 데이터를 전혀 사용하지 않음에도 불구하고, R-EWC는 전체 데이터를 항상 이용할 수 있는 Upper Bound와 경쟁 가능한 성능을 달성했다.
모든 이전 태스크에서 잊음이 지속적으로 감소했으며, 특히 잊음이 가장 심각한 후속 태스크에서 가장 큰 성능 향상이 관찰되었다.
회전 기반의 재정의가 FIM을 효과적으로 대각화하여, 원래 파라미터 공간보다 EWC의 핵심 가정을 더 정확하게 구현함을 검증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.