QUICK REVIEW

[논문 리뷰] Overcoming Catastrophic Forgetting by Incremental Moment Matching

Sang-Woo Lee, Jin-Hwa Kim|arXiv (Cornell University)|2017. 03. 24.

Domain Adaptation and Few-Shot Learning인용 수 293

한 줄 요약

IMM은 점진적으로 후방 모먼트를 맞춰서 파국적 망각을 완화합니다; 평균-IMM과 모드-IMM은 weight-transfer, L2-transfer, drop-transfer 와 같은 전이 기법으로 오래된 작업과 새로운 작업의 균형을 맞추어 다수의 데이터셋에서 연속 학습의 최신 성능을 달성합니다.

ABSTRACT

Catastrophic forgetting is a problem of neural networks that loses the information of the first task after training the second task. Here, we propose a method, i.e. incremental moment matching (IMM), to resolve this problem. IMM incrementally matches the moment of the posterior distribution of the neural network which is trained on the first and the second task, respectively. To make the search space of posterior parameter smooth, the IMM procedure is complemented by various transfer learning techniques including weight transfer, L2-norm of the old and the new parameter, and a variant of dropout with the old parameter. We analyze our approach on a variety of datasets including the MNIST, CIFAR-10, Caltech-UCSD-Birds, and Lifelog datasets. The experimental results show that IMM achieves state-of-the-art performance by balancing the information between an old and a new network.

연구 동기 및 목표

딥 뉴럴 네트워크에서 연속 학습의 필요성과 파국적 망각의 완화를 제시한다.
연속적인 작업에 대해 사후를 가우시안 혼합으로 근사하는 베이지안에서 영감을 받은 프레임워크를 도입한다.
작업별 사후를 합치기 위한 두 가지 모먼트 매칭 변형(mean-IMM 및 mode-IMM)을 제안한다.
전이 기법으로 IMM 탐색 공간을 확장하여 부드럽고 볼록에 가까운 최적화 경로를 생성한다.
다양한 데이터셋(MNIST, CIFAR-10, Caltech-UCSD Birds, Lifelog)에서 실증적 향상을 입증한다.

제안 방법

네트워크 매개변수에 대한 사후를 가우시안으로 모델링하고 작업 사후의 혼합을 단일 Gaussian q(θ|μ,Σ)로 근사한다.
Mean-IMM: 가중된 KL 발산합 KL(qk||q1:K)을 최소화하여 μ* = ∑k αk μk 및 Σ* = ∑k αk(Σk + (μk−μ*)(μk−μ*)T)가 된다.
Mode-IMM: 혼합물의 모드를 라플라시안 근사로 근사하여 μ* = Σ* (∑k αk Σk−1 μk) 및 Σ* = (∑k αk Σk−1)−1 이다.
전이 기법(weight-transfer, L2-transfer, drop-transfer)을 적용하여 작업 사후 간의 최적화 경로를 부드럽고 볼록에 가까운 형태로 만든다.
복잡도를 줄이기 위해 대각 공분산을 가정하고 mode-IMM에서 Σk를 정의하기 위해 Fisher 정보를 사용한다.

실험 결과

연구 질문

RQ1순차적 작업 네트워크의 사후 모먼트를 어떻게 병합하여 망각을 방지할 수 있는가?
RQ2평균-IMM과 모드-IMM이 다양한 데이터셋에서 오래된 작업과 새로운 작업 간의 성능 균형을 효과적으로 달성하는가?
RQ3전이 기법(weight-transfer, L2-transfer, drop-transfer)이 손실 지형을 완만하게 만들어 IMM 성능을 향상시키는가?
RQ4베이지안 모먼트 매칭 관점이 딥 네트워크에서의 연속 학습을 설명하고 이끄는가?
RQ5작업 간 규모 및 데이터 분포가 다른 경우 IMM의 실용적 한계는 무엇인가?

주요 결과

Mean-IMM과 mode-IMM은 여러 벤치마크에서 최신 연구 수준의 연속 학습 성능에 근접하게 산출한다.
Drop-transfer와 L2-transfer는 IMM 성능을 크게 향상시키고 오래된 작업과 새로운 작업 사이의 균형의 안정성을 높인다.
Mode-IMM은 전이 기법에 대한 강건성을 보여주며 보통 평균-IMM보다 더 나은 성능을 낸다, 특히 작업 규모가 다를 때.
IMM은 αt를 조정하여 온라인으로 작업 중요도를 명시적으로 균형 잡고 오래된 정보와 새로운 정보를 동적으로 가중치 부여할 수 있다.
ImageNet에서 CUB로의 전이에서 IMM 변형은 이전 LwF 베이스라인보다 약간의 향상을 달성하여 이질적인 작업 쌍에 적용 가능성을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.