Skip to main content
QUICK REVIEW

[논문 리뷰] Improved Schemes for Episodic Memory-based Lifelong Learning

Yunhui Guo, Mingrui Liu|arXiv (Cornell University)|2019. 09. 25.
Domain Adaptation and Few-Shot Learning참고 문헌 49인용 수 27
한 줄 요약

이 논문은 GEM과 A-GEM을 통합하고 개선하기 위해 적응형 손실 균형 조정과 기울기 회전을 도입한 새로운 에피소딕 메모리 기반 연속 학습 기법인 MEGA-i와 MEGA-ii를 제안한다. 이 방법들은 치명적 기억 상실을 크게 감소시켜 Permuted MNIST와 Split CIFAR-100과 같은 표준 벤치마크에서 최대 18%의 오차 감소를 달성하며 최신 기술 수준의 성능을 확보한다.

ABSTRACT

Current deep neural networks can achieve remarkable performance on a single task. However, when the deep neural network is continually trained on a sequence of tasks, it seems to gradually forget the previous learned knowledge. This phenomenon is referred to as extit{catastrophic forgetting} and motivates the field called lifelong learning. Recently, episodic memory based approaches such as GEM \cite{lopez2017gradient} and A-GEM \cite{chaudhry2018efficient} have shown remarkable performance. In this paper, we provide the first unified view of episodic memory based approaches from an optimization's perspective. This view leads to two improved schemes for episodic memory based lifelong learning, called MEGA-I and MEGA-II. MEGA-I and MEGA-II modulate the balance between old tasks and the new task by integrating the current gradient with the gradient computed on the episodic memory. Notably, we show that GEM and A-GEM are degenerate cases of MEGA-I and MEGA-II which consistently put the same emphasis on the current task, regardless of how the loss changes over time. Our proposed schemes address this issue by using novel loss-balancing updating rules, which drastically improve the performance over GEM and A-GEM. Extensive experimental results show that the proposed schemes significantly advance the state-of-the-art on four commonly used lifelong learning benchmarks, reducing the error by up to 18\%.

연구 동기 및 목표

  • 단일 최적화 프레임워크 내에서 에피소딕 메모리 기반 접근법을 통합하여 연속 학습에서 치명적 기억 상실 문제를 해결한다.
  • 기존 방법들인 GEM과 A-GEM이 손실 동역학에 관계없이 항상 현재 작업에 고정된 강조를 부여하는 한계를 극복한다.
  • 동적 손실 균형 조정과 기울기 조절을 통해 오래된 작업과 새로운 작업 간의 학습 균형을 조절하는 적응형 기법을 개발한다.
  • 특히 각 작업당 데이터가 적은 조건에서 표준 연속 학습 벤치마크에서 성능을 향상시킨다.
  • 복합 최적화 목표를 통해 연속 학습에서 개선된 기울기 갱신을 위한 이론적 및 실험적 기반을 제공한다.

제안 방법

  • 현재 작업과 과거 작업의 목표를 모두 포함하는 복합 최적화 문제로 연속 학습을 공식화한다.
  • 현재 작업 기울기와 에피소딕 메모리 예제의 기울기를 조합하여 혼합 확률적 기울기(MEGA)를 도입한다.
  • MEGA-i를 제안하며, 오래된 작업과 새로운 작업 기울기 간의 균형을 적응형 손실 기반 가중치로 조절한다.
  • MEGA-ii를 제안하며, 에피소딕 메모리 기울기와 손실 정보를 기반으로 현재 기울기를 회전시켜 성능을 추가로 향상시킨다.
  • 시간이 지남에 따라 모델의 손실 변화 정도에 따라 오래된 작업에 대한 강조를 동적으로 조정하는 손실 균형 규칙을 사용한다.
  • MEGA 업데이트 규칙을 사용한 한 단계 확률적 기울기 하강법을 구현하여 순차적 작업에서의 효율적 훈련을 가능하게 한다.

실험 결과

연구 질문

  • RQ1어떻게 에피소딕 메모리 기반 연속 학습 기법들을 단일 최적화 프레임워크 내에서 통합할 수 있는가?
  • RQ2기존 방법들인 GEM과 A-GEM이 동적 손실 상황에서 성능이 떨어지는 이유는 무엇이며, 왜 항상 현재 작업에 고정된 강조를 부여하는가?
  • RQ3적응형 손실 균형 조정과 기울기 회전이 연속 학습에서 일반화 성능 향상과 기억 상실 감소에 기여할 수 있는가?
  • RQ4MEGA-i와 MEGA-ii는 다양한 벤치마크에서 GEM과 A-GEM에 비해 정확도와 내성성 측면에서 어떻게 비교되는가?
  • RQ5제한된 예제 수가 작업당 존재할 경우 MEGA-i와 MEGA-ii의 성능에 어떤 영향을 미치며, 왜 MEGA-ii가 그러한 환경에서 MEGA-i를 능가하는가?

주요 결과

  • MEGA-ii는 Permuted MNIST에서 평균 정확도 91.21% ± 0.10을 기록하여 이전 최고 성능보다 2% 향상되었다.
  • Split CIFAR-100에서 MEGA-ii는 66.12% ± 1.93의 정확도를 달성하여 이전 최고 성능 방법보다 5% 향상되었다.
  • 작업당 예제 수가 제한된 조건에서 MEGA-ii는 적응형 기울기 회전과 손실 균형 조정 메커니즘 덕분에 MEGA-i를 능가한다.
  • MEGA-i와 MEGA-ii는 네 가지 표준 연속 학습 벤치마크에서 기준 방법 대비 최대 18%의 오차 감소를 기록했다.
  • MEGA-i와 MEGA-ii는 모든 데이터셋에서 A-GEM을 능가하며, 특히 기준 손실 임계값을 사용할 경우에도 MEGA-ii가 일관된 성능 향상을 보였다.
  • 제거 분석 결과, 기울기 회전과 적응형 손실 균형 조정이 성능 향상에 크게 기여하는 것으로 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.