Skip to main content
QUICK REVIEW

[논문 리뷰] Continual Learning with Adaptive Weights (CLAW)

Tameem Adel, Han Zhao|arXiv (Cornell University)|2019. 11. 21.
Domain Adaptation and Few-Shot Learning참고 문헌 83인용 수 27
한 줄 요약

CLAW는 변분 추론을 사용하여 작업 간에 국소적으로 적응시킬 신경망 뉴런과 전역적으로 공유할 뉴런을 자동으로 결정하는 확률적 지속 학습 프레임워크를 제안한다. 이로 인해 사전 정의된 아키텍처 분할이 필요 없어지며, 모델 크기를 늘리지 않고도 재난적 기억상실을 최소화하고 향후 전이를 극대화함으로써 여섯 가지 벤치마크에서 최신 기술 성능을 달성한다.

ABSTRACT

Approaches to continual learning aim to successfully learn a set of related tasks that arrive in an online manner. Recently, several frameworks have been developed which enable deep learning to be deployed in this learning scenario. A key modelling decision is to what extent the architecture should be shared across tasks. On the one hand, separately modelling each task avoids catastrophic forgetting but it does not support transfer learning and leads to large models. On the other hand, rigidly specifying a shared component and a task-specific part enables task transfer and limits the model size, but it is vulnerable to catastrophic forgetting and restricts the form of task-transfer that can occur. Ideally, the network should adaptively identify which parts of the network to share in a data driven way. Here we introduce such an approach called Continual Learning with Adaptive Weights (CLAW), which is based on probabilistic modelling and variational inference. Experiments show that CLAW achieves state-of-the-art performance on six benchmarks in terms of overall continual learning performance, as measured by classification accuracy, and in terms of addressing catastrophic forgetting.

연구 동기 및 목표

  • 데이터 기반으로 네트워크 아키텍처를 동적으로 적응시킴으로써 지속 학습에서 재난적 기억상실 문제를 해결한다.
  • 공유(전역) 및 작업별(국소) 네트워크 구성 요소 간 수동으로 설계된 고정 분할이 필요 없도록 한다.
  • 모델 효율성을 유지하면서도 작업 간 파rameter 공유를 민감하게 데이터 기반으로 학습할 수 있도록 한다.
  • 향후 전이(미래 작업으로의 지식 전이)와 이전 작업 성능 유지(역방향 안정성)를 모두 향상시킨다.
  • 기존 지속 학습 파ipeline과 호환되는 확장 가능한 점진적 추론 프레임워크를 개발한다.

제안 방법

  • CLAW는 점진적 사후 분포 갱신을 사용하는 확률적 베이지안 프레임워크를 활용해 변분 지속 학습(VCL)을 확장한다.
  • 각 뉴런에 대해 국소 적응 또는 전역 공유 여부를 제어하는 이진 스위치 변수를 도입한다.
  • 각 뉴런당 작업별 업데이트의 크기를 제어하는 두 개의 연속적 적응 파라미터를 학습한다.
  • 이중 스위치 변수를 포함한 모든 파라미터는 약어화 추론 기반 절차를 통해 동시에 추론된다.
  • 과거 데이터 재학습 없이도 점진적 학습이 가능하며, 안정성을 유지하면서 향후 전이를 가능하게 한다.
  • 기존 뉴런을 재사용함으로써 아키텍처 확장을 피하고, 복구 데이터 저장 또는 생성이 필요 없다.

실험 결과

연구 질문

  • RQ1지속 학습 프레임워크가 작업 간에 공유되어야 할 네트워크 구성 요소와 국소적으로 적응되어야 할 요소를 자동으로 결정할 수 있는가?
  • RQ2사전 아키텍처 제약 없이 데이터 기반의 확률적 방식으로 아키텍처 적응을 학습할 수 있는가?
  • RQ3이러한 프레임워크는 재난적 기억상실을 얼마나 효과적으로 줄이고 향후 전이를 얼마나 향상시킬 수 있는가?
  • RQ4모델 크기를 늘리지 않고도 복구 데이터가 필요 없이 최신 기술 성능을 달성할 수 있는가?
  • RQ5CLAW의 성능는 기존 정규화, 아키텍처 기반, 메모리 기반 지속 학습 방법과 비교해 어떻게 나타나는가?

주요 결과

  • CLAW는 Split MNIST, notMNIST, Fashion-MNIST, Omniglot, CIFAR-100 포함한 다섯 개 데이터셋에서 여섯 개 실험에 걸쳐 평균 정확도에서 최신 기술 성능을 달성한다.
  • Split MNIST 벤치마크에서, CLAW는 이후 여러 작업을 학습한 후에도 초기 작업에 대해 높은 성능를 유지하며, 기억상실 최소화를 입증한다.
  • 향후 전이 평가에서, CLAW는 더 많은 이전 작업을 기반으로 학습할수록 최종 작업의 성능 향상이 가장 두드러지며, 다섯 개 실험 중 네 개에서 모든 베이스라인보다 뛰어난 성능를 보였다.
  • 성능 유지 곡선을 통해 CLAW가 EWC, LwF 및 기타 정규화 기반 방법보다 재난적 기억상실을 더 효과적으로 줄이는 것으로 나타났다.
  • 새로운 뉴런을 추가하지 않으며 복구 데이터가 필요 없어 모델 효율성을 유지하면서도 경쟁력 있는 성능를 달성했다.
  • 안정성(역방향 전이)과 유연성(향후 전이) 모두에서 CLAW의 성능는 기존 방법과 비슷하거나 뛰어나다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.