QUICK REVIEW

[논문 리뷰] Understanding Catastrophic Forgetting and Remembering in Continual Learning with Optimal Relevance Mapping

Prakhar Kaushik, Alex Gain|arXiv (Cornell University)|2021. 02. 22.

Domain Adaptation and Few-Shot Learning인용 수 26

한 줄 요약

이 논문은 Relevance Mapping Networks (RMNs)를 소개하여 엄격한 연속 학습 프레임워크에서 재해석적 망각(CF)과 재해석적 기억(CR)을 최소화하기 위한 태스크 특이적 가중치 관련성 마스크를 학습하고, 데이터 재생 없이도 최첨단 성능을 달성합니다.

ABSTRACT

Catastrophic forgetting in neural networks is a significant problem for continual learning. A majority of the current methods replay previous data during training, which violates the constraints of an ideal continual learning system. Additionally, current approaches that deal with forgetting ignore the problem of catastrophic remembering, i.e. the worsening ability to discriminate between data from different tasks. In our work, we introduce Relevance Mapping Networks (RMNs) which are inspired by the Optimal Overlap Hypothesis. The mappings reflects the relevance of the weights for the task at hand by assigning large weights to essential parameters. We show that RMNs learn an optimized representational overlap that overcomes the twin problem of catastrophic forgetting and remembering. Our approach achieves state-of-the-art performance across all common continual learning datasets, even significantly outperforming data replay methods while not violating the constraints for an ideal continual learning system. Moreover, RMNs retain the ability to detect data from new tasks in an unsupervised manner, thus proving their resilience against catastrophic remembering.

연구 동기 및 목표

엄격한 연속 학습에서 재해석적 망각(CF)과 재해석적 기억(CR)의 이중 문제를 동기 부여하고 정형화한다.
CF 및 CR를 최소화하기 위해 태스크 특이적 가중치 관련성 매핑을 학습하는 데이터 재생-free 방법을 제안한다.
단순한 아키텍처와 복잡한 아키텍처에서 표준 CL 벤치마크에 대해 최첨단 성능을 Demonstrate한다.
RMN이 감독 없이 새 태스크를 감지할 수 있음을 보여주어 CR에 감독 없이 대응한다.]
method_
3-6 bullet points: proposed method, key techniques/equations
research_questions
[
RMNs는 데이터 재생 없이 엄격한 연속 학습 제약 하에서 재해석적 망각을 완화할 수 있는가?
RMNs는 순차적 태스크에서 판별 가능 능력을 보존하여 재해석적 기억 감소를 완화하고 비지도 태스크 탐지까지 가능한가?
표준 CL 벤치마크와 아키텍처에서 RMNs의 성능은 최첨단 방법과 비교해 어떤가?
RMNs가 비지도 설정에서 새로운 태스크를 탐지할 수 있는가?
제안된 베이지안 해석이 RMN의 태스크 특이적 포스트eriors를 분해하는 능력을 어떻게 설명하는가?

제안 방법

RMN(최적 중첩 가설에 기초한 연속 학습용 Relevance Mapping) 도입
네트워크 가중치에서 거의 이진인 태스크 기반 관련성 마스크를 유지하며 표준 가중치와 함께 공동 학습되어 태스크 특이적 서브네트워크를 생성한다.
가중치 위에 초기화된 로짓-정규 혼합을 통해 관련성 매핑을 표현하고, 학습 가능한 매개변수 beta를 통해 양자화 가능한 마스크를 얻는다.
태스크 특이적 매핑이 표현을 분리하고 악성 간섭을 방지하는 방법을 베이지안형 포스터리어 분해를 이용해 보인다.
재생 버퍼나 태스크당 새 네트워크를 추가하지 않는 엄격한 연속 학습 제약하에 학습한다.
다양한 아키텍처(MLP, CNN, ResNet18)로 Permuted MNIST, Split MNIST, Sequential Omniglot, Split CIFAR-100(10개 및 20개 태스크)에서 평가한다.

실험 결과

연구 질문

RQ1RMNs가 데이터 재생 없이도 엄격한 연속 학습 제약 하에서 재해석적 망각을 완화할 수 있는가?
RQ2RMNs가 순차적 태스크 간 판별 능력을 유지하여 재해석적 기억을 완화하고 비지도 태스크 탐지까지 가능한가?
RQ3RMNs의 표준 CL 벤치마크 및 아키텍처에서의 성능은 최첨단 방법과 비교해 어떤가?
RQ4RMNs가 비지도 설정에서 새로운 태스크를 탐지할 수 있는가?
RQ5제안된 베이지안 해석이 RMN의 태스크 특이적 포스트eriors 분해 능력을 어떻게 설명하는가?

주요 결과

RMNs는 표준 CL 벤치마크에서 재생 기반 방법보다 우수한 최첨단 결과를 달성한다.
RMNs는 큰 개선을 보인다: P-MNIST에서 +2.8%, S-MNIST에서 +0.5%, S-Omniglot에서 +3.9%, S-CIFAR100에서 +8.7%, RES-CIFAR에서 +13.9%의 개선을 달성했다.
RMNs는 재생 버퍼, 멀티-헤드, 사전 학습 또는 사전 학습된 모델이 필요 없이도 우수한 CF 완화를 제공한다.
RMNs는 비지도 새 태스크/데이터 탐지 및 비지도 태스크 추론을 시연하며 CR에 대응한다.
해당 접근법은 간단한 아키텍처(MLP)와 복잡한 아키텍처(ResNet18), 단기 및 장기 연속 학습 태스크에서도 견고한 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.