Skip to main content
QUICK REVIEW

[논문 리뷰] Measuring Catastrophic Forgetting in Neural Networks

Ronald Kemker, Marc McClure|arXiv (Cornell University)|2017. 08. 07.
Multimodal Machine Learning Applications인용 수 190
한 줄 요약

이 논문은 Incremental Learning에서 재앙적 망각을 완화하기 위한 다섯 가지 메커니즘을 고찰하고, 새로운 벤치마크와 지표를 도입하며, 실제 이미지 및 오디오 데이터세트에서 이를 비교하여 파라다임 간 망각을 완전히 해결하지 못함을 보여준다.

ABSTRACT

Deep neural networks are used in many state-of-the-art systems for machine perception. Once a network is trained to do a specific task, e.g., bird classification, it cannot easily be trained to do new tasks, e.g., incrementally learning to recognize additional bird species or learning an entirely different task such as flower recognition. When new tasks are added, typical deep neural networks are prone to catastrophically forgetting previous tasks. Networks that are capable of assimilating new information incrementally, much like how humans form new memories over time, will be more efficient than re-training the model from scratch each time a new task needs to be learned. There have been multiple attempts to develop schemes that mitigate catastrophic forgetting, but these methods have not been directly compared, the tests used to evaluate them vary considerably, and these methods have only been evaluated on small-scale problems (e.g., MNIST). In this paper, we introduce new metrics and benchmarks for directly comparing five different mechanisms designed to mitigate catastrophic forgetting in neural networks: regularization, ensembling, rehearsal, dual-memory, and sparse-coding. Our experiments on real-world images and sounds show that the mechanism(s) that are critical for optimal performance vary based on the incremental training paradigm and type of data being used, but they all demonstrate that the catastrophic forgetting problem has yet to be solved.

연구 동기 및 목표

  • DNN에서 재앙적 망각 없이 점진적 학습의 필요성을 촉진한다.
  • MNIST를 넘어 100–200 클래스의 실제 데이터세트에 확장되는 새로운 벤치마크와 지표를 제안한다.
  • 다섯 가지 메커니즘—정규화, 앙상블링, 리허설, 이중 기억, 희소 코딩—를 다양한 점진적 패러다임에서 비교한다.
  • 다른 데이터 모달리티와 작업 설정이 망각과 방법의 성능에 미치는 영향을 평가한다.

제안 방법

  • 연구 세션과 과거 데이터에 대한 외부 메모리 옵션이 있는 점진적 학습 설정을 정의한다.
  • 세 가지 새로운 벤치마크: data permutation, incremental class learning, multi-modal learning을 개발한다.
  • 고정 매개변수 수를 가진 baselines와 함께 다섯 가지 메커니즘(EWC, PathNet, GeppNet, GeppNet+STM, FEL)을 평가한다.
  • 보유와 습득을 정량화하기 위한 망각 관련 지표 Omega_base, Omega_new, Omega_all를 도입한다.
  • 모델 간 학습 시간과 메모리 발자국을 분석한다.

실험 결과

연구 질문

  • RQ1다양한 점진적 학습 패러다임에서 현실 세계 데이터세트에 대해 다섯 가지 망각 완화 메커니즘은 어떻게 비교되는가?
  • RQ2100–200 클래스 작업 및 교차 모달 데이터로 확장될 때 기존 해결책이 재앙적 망각을 완전히 해결하는가?
  • RQ3메모리 사용량, 모델 용량, 희소성 등 어떤 요인이 과제 간 망각과 유지에 가장 큰 영향을 미치는가?
  • RQ4지표 Omega_base, Omega_new, Omega_all가 데이터세트 간 유지 및 학습 트레이드오프를 어떻게 포착하는가?

주요 결과

  • 테스트된 방법 중 어느 것도 모든 작업 및 데이터세트에서 재앙적 망각을 완전히 해결하지 못한다.
  • Omega_all은 일반적으로 MNIST가 CUB-200 또는 AudioSet보다 높게 나타나 데이터세트에 따라 성능 차이가 있음을 강조한다.
  • GeppNet 및 GeppNet+STM은 점진적 클래스 학습에서 강한 성능을 보이며 GeppNet이 종종 최고; GeppNet+STM은 기본 지식을 유지하지만 일부 데이터세트에서 새로운 클래스에 어려움을 겪는다.
  • EWC는 다중 모달 학습에서 첫 번째 모달리티를 보존하면서 두 번째를 습득하여 우수하다.
  • PathNet은 데이터 퍼뮤테이션 작업에서 가장 잘 작동하지만 각 세션마다 별도의 출력이 필요하고 특징 공유 시 포화될 수 있다.
  • FEL은 새로운 클래스를 잘 학습하지만 기본 세트를 잊고, 희소성이 유일한 메커니즘일 때 메모리 발자국이 크게 증가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.