QUICK REVIEW

[논문 리뷰] Class-incremental Learning via Deep Model Consolidation

Junting Zhang, Jie Zhang|arXiv (Cornell University)|2019. 03. 19.

Domain Adaptation and Few-Shot Learning참고 문헌 62인용 수 29

한 줄 요약

이 논문은 기존 학습 데이터나 모델 재현을 필요로 하지 않고, unlabeled 보조 데이터를 통해 새로운 이중 정규화 목표를 사용하여 이전 및 신규 클래스에 대한 별도의 모델을 통합하는 Deep Model Consolidation (DMC)을 제안한다. DMC는 CIFAR-100, CUB-200, PASCAL VOC 2007에서 기존 최고 성능를 달성하며, 치명적인 기억 상실을 크게 줄이고 모델 효율성을 유지한다.

ABSTRACT

Deep neural networks (DNNs) often suffer from "catastrophic forgetting" during incremental learning (IL) --- an abrupt degradation of performance on the original set of classes when the training objective is adapted to a newly added set of classes. Existing IL approaches tend to produce a model that is biased towards either the old classes or new classes, unless with the help of exemplars of the old data. To address this issue, we propose a class-incremental learning paradigm called Deep Model Consolidation (DMC), which works well even when the original training data is not available. The idea is to first train a separate model only for the new classes, and then combine the two individual models trained on data of two distinct set of classes (old classes and new classes) via a novel double distillation training objective. The two existing models are consolidated by exploiting publicly available unlabeled auxiliary data. This overcomes the potential difficulties due to the unavailability of original training data. Compared to the state-of-the-art techniques, DMC demonstrates significantly better performance in image classification (CIFAR-100 and CUB-200) and object detection (PASCAL VOC 2007) in the single-headed IL setting.

연구 동기 및 목표

기존 학습 데이터에 접근할 수 없는 환경에서 딥 네ural 네트워크의 증분 학습 중 치명적인 기억 상실 문제를 해결한다.
이전 데이터나 예시를 저장하지 않고도 이전 및 신규 클래스 모두에서 높은 정확도를 유지하는 방법을 개발한다.
증분 업데이트 후에도 안정적인 모델 크기와 효율적인 단일 헤드 분류를 가능하게 한다.
비대칭적 지도 학습으로 인해 이전 또는 신규 클래스에 편향이 생기는 정규화 기반 방법의 본질적 한계를 극복한다.
공개된 unlabeled 데이터를 활용하여 서로 다른 클래스 집합에서 학습된 모델 간에 편향 없는 지식 전이를 가능하게 한다.

제안 방법

기존 클래스 전용으로 학습된 모델을 유지하면서, 레이블이 있는 데이터를 사용해 신규 클래스 전용 별도의 모델을 훈련시킨다.
기존 모델과 신규 모델 양쪽에서 지식을 추출하여 단일 학생 모델에 통합하는 새로운 이중 정규화 목표를 사용해 두 모델을 통합한다.
일반적인 unlabeled 보조 데이터(예: MS COCO에서의 데이터)를 활용해 통합 과정 중 다양하고 전이 가능한 표현을 제공한다.
보조 데이터가 목표 데이터와 동일한 클래스 레이블이나 분포를 공유할 필요는 없으며, 다양하고 관련성이 있어야 한다.
대칭적 정규화 적용: 학생 모델이 동시에 두 교사 모델로부터 지식을 학습함으로써 이전 또는 신규 클래스에 대한 편향을 방지한다.
대칭적이고 아키텍처에 종속되지 않는 프레임워크를 사용해 서로 다른 백본(예: ResNet-34 및 ResNet-50)을 가진 모델의 통합을 가능하게 한다.

실험 결과

연구 질문

RQ1기존 학습 데이터에 접근할 수 없는 환경에서 클래스 증분 학습 방법이 이전 및 신규 클래스 모두에서 높은 성능를 달성할 수 있는가?
RQ2독립적으로 훈련된 두 모델에서 이중 정규화를 통해 일반화 성능를 향상시키고 기억 상실을 줄일 수 있는가? 기존 정규화 방법과 비교해 어떻게 향상되는가?
RQ3unlabeled 보조 데이터의 분포가 통합된 모델의 성능에 얼마나 큰 영향을 미치는가?
RQ4성능 저하 없이 다양한 백본 아키텍처에 효과적으로 적용될 수 있는가?
RQ5정확도, 모델 효율성, 확장성 측면에서 기존의 예시 기반 방법보다 우수한 성능를 보일 수 있는가?

주요 결과

DMC는 19+1 클래스 증분 학습에서 PASCAL VOC 2007에서 mAP 70.8%를 기록하여 기존의 비예시 기반 방법보다 우수한 성능를 달성한다.
19+1 객체 검출 실험에서 DMC는 모든 클래스 평균 mAP 68.47%를 기록했으며, 표준편차는 단지 1.75%에 불과하다.
PASCAL VOC 관련 이미지를 완전히 제외한 엄격한 보조 데이터 설정(고유한 보조 데이터)에서도 DMC는 모든 클래스에서 이전 최고 성능 방법 [51]을 초월한다.
우수한 성능를 달성했음에도 불구하고, DMC는 인퍼런스 두 번 기준 모델의 복잡도와 추론 시간을 반으로 유지한다.
이전 클래스와 신규 클래스에 모두 ResNet-50를 사용한 경우 mAP 69.9%로 성능 저하가 발생했으며, 신규 클래스에만 ResNet-34를 사용한 경우 mAP 70.8%를 기록함으로써 작은 데이터셋에서 더 깊은 모델의 과적합 위험이 있음을 시사한다.
이중 정규화 메커니즘이 지식 전이를 효과적으로 균형 잡아, 정규화 기반 접근법에서 관찰되는 이전 또는 신규 클래스에 대한 편향을 방지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.