Skip to main content
QUICK REVIEW

[논문 리뷰] M2KD: Multi-model and Multi-level Knowledge Distillation for Incremental Learning

Peng Zhou, Long Mai|arXiv (Cornell University)|2019. 04. 03.
Domain Adaptation and Few-Shot Learning참고 문헌 37인용 수 45
한 줄 요약

본 논문은 M2KD를 제안하며, 가지 멀티모델 및 다계층 지식 증류와 가지치기를 통한 모델 재구성을 활용해 exemplar-free 및 exemplar-based 점진 학습에서 망각을 완화하는 M2KD를 제안한다.

ABSTRACT

Incremental learning targets at achieving good performance on new categories without forgetting old ones. Knowledge distillation has been shown critical in preserving the performance on old classes. Conventional methods, however, sequentially distill knowledge only from the last model, leading to performance degradation on the old classes in later incremental learning steps. In this paper, we propose a multi-model and multi-level knowledge distillation strategy. Instead of sequentially distilling knowledge only from the last model, we directly leverage all previous model snapshots. In addition, we incorporate an auxiliary distillation to further preserve knowledge encoded at the intermediate feature levels. To make the model more memory efficient, we adapt mask based pruning to reconstruct all previous models with a small memory footprint. Experiments on standard incremental learning benchmarks show that our method preserves the knowledge on old classes better and improves the overall performance over standard distillation techniques.

연구 동기 및 목표

  • 전체 데이터 접근 없이 증분 학습에서의 급격한 망각 문제를 해결한다.
  • 직전 모델만이 아니라 모든 이전 모델 스냅샷에서 증류해 옛 지식을 보존한다.
  • 보조 증류를 통해 중간 특징 표현을 보존하여 지식 보존을 강화한다.
  • 마스크 기반 가지치를 사용하여 past 모델의 필수 매개변수만 재구성·저장하고 즉시 모델 재구성을 가능하게 한다.
  • exemplar-free 설정에서 최첨단 성능을 시연하고, exemplar를 활용한 설정에서도 강력한 결과를 보인다.

제안 방법

  • 현재 모델의 출력을 모든 이전 모델 스냅샷의 출력과 일치시키는 다중 모델 증류 손실을 도입한다.
  • 보조 증류 손실을 추가해 중간 특징 표현을 보존한다.
  • 마스크 기반 가지치를 사용하여 past 모델의 필수 매개변수만 재구성·저장하고 즉시 모델 재구성을 가능하게 한다.
  • 다중 모델 증류와 보조 증류를 합쳐 총 손실 L_total = L_MMD + lambda L_AD 로 정의한다.
  • 과거 모델에서 증류하면서 현재 데이터에 대해 표준 교차 엔트로피로 역전파한다.
  • 백본에 독립적인 프레임워크로 exemplar-free 및 exemplar-based 증분 학습과 호환된다.

실험 결과

연구 질문

  • RQ1모든 이전 모델 스냅샷에서의 증류가 순차적으로 penultimate-모델만 증류하는 것보다 옛 지식을 더 잘 보존할 수 있는가?
  • RQ2중간 특징의 보조 증류가 최종 로짓 증류를 넘어 망각을 더 줄여주는가?
  • RQ3마스크 기반 가지치기가 메모리 오버헤드를 낮추면서 과거 모델을 효과적으로 재구성하고 성능 저하 없이 가능할까?
  • RQ4제안된 M2KD 방식이 최첨단의 exemplar-free 및 exemplar-based 증분 방법과 경쟁력이 있거나 우수한가?

주요 결과

  • M2KD는 CIFAR-100 및 iILSVRC-small에서 exemplar-free 증분 학습에 최첨단 성능을 달성한다.
  • 가지치기 기반 재구성은 가지치기 비적용 변형과 유사한 정확도로 메모리 효율적인 과거 모델 증류를 가능하게 한다.
  • 보조 증류는 최종 로짓뿐 아니라 중간 특징 통계도 보존해 보유력을 향상시킨다.
  • exemplar 기반 설정에서 M2KD를 exemplar 데이터와 통합하면 정확도가 더욱 향상되어 기존 exemplar 기반 방법을 상회한다.
  • 본 방법은 단계당 5/10/20 클래스의 서로 다른 배치 크기에 걸쳐 확장되며 가지치기 비율에서도 견고한 성능을 유지한다.
  • 메모리 비용 감소는 iCaRL과 같은 exemplar 기반 접근법에 비해 상당하지만 정확도는 경쟁력 있게 유지된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.