QUICK REVIEW

[논문 리뷰] Constrained Few-shot Class-incremental Learning

Michael Hersche, Geethan Karunaratne|arXiv (Cornell University)|2022. 01. 01.

Domain Adaptation and Few-Shot Learning인용 수 7

한 줄 요약

C-FSCIL는 고정된 메타학습된 특징 추출기, 고정 크기의 학습 가능한 분류기, 그리고 동적으로 확장되는 메모리(준직교 프로토타입을 저장)를 사용하는 제약 조건이 있는 소수의 샘플로 클래스 증분 학습을 위한 프레임워크를 제안한다. 1,200개의 기본 클래스 위에 423개의 새로운 클래스를 학습할 때 최소한의 정확도 감소(1.6% 미만)를 기록하면서 최신 기술 수준의 정확도를 달성하며, 계산 비용은 일정하고 메모리 사용량은 선형 증가한다.

ABSTRACT

Continually learning new classes from fresh data without forgetting previous knowledge of old classes is a very challenging research problem. Moreover, it is imperative that such learning must respect certain memory and computational constraints such as (i) training samples are limited to only a few per class, (ii) the computational cost of learning a novel class remains constant, and (iii) the memory footprint of the model grows at most linearly with the number of classes observed. To meet the above constraints, we propose C-FSCIL, which is architecturally composed of a frozen meta-learned feature extractor, a trainable fixed-size fully connected layer, and a rewritable dynamically growing memory that stores as many vectors as the number of encountered classes. C-FSCIL provides three update modes that offer a trade-off between accuracy and compute-memory cost of learning novel classes. C-FSCIL exploits hyperdimensional embedding that allows to continually express many more classes than the fixed dimensions in the vector space, with minimal interference. The quality of class vector representations is further improved by aligning them quasi-orthogonally to each other by means of novel loss functions. Experiments on the CIFAR100, miniImageNet, and Omniglot datasets show that C-FSCIL outperforms the baselines with remarkable accuracy and compression. It also scales up to the largest problem size ever tried in this few-shot setting by learning 423 novel classes on top of 1200 base classes with less than 1.6% accuracy drop. Our code is available at https://github.com/IBM/constrained-FSCIL.

연구 동기 및 목표

엄격한 메모리, 계산, 모델 크기 제약 조건 하에서 지속적인 소수의 샘플 학습 문제를 해결한다.
단지 몇 개의 샘플로만 새로운 클래스를 학습할 때 치명적인 기억 상실을 방지한다.
최소한의 재학습과 선형 메모리 증가를 바탕으로 확장 가능하고 효율적이며 정확도가 높은 증분 학습을 가능하게 한다.
초월적 차원 공간에서 준직교 정렬을 통해 프로토타입 표현 품질을 향상시킨다.
세 가지의 서로 다른 모드에서 정확도와 계산 비용 간의 균형을 맞출 수 있는 융통성 있는 업데이트 메커니즘을 제공한다.

제안 방법

메타학습된 CNN 특징 추출기를 고정시키고, 학습 가능한 고정 크기의 완전 연결 층과 분리하며, 클래스 프로토타입을 저장하는 재기록 가능한 메모리를 갖춘 아키텍처를 구현한다.
초월적 차원 계산을 활용하여 클래스를 고차원 벡터로 표현함으로써 측정의 집중 현상 덕분에 기하급수적인 용량 확보와 최소한의 간섭을 달성한다.
세 가지 업데이트 모드를 도입한다: 모드 1은 경량화된 기울기 업데이트 없이 단순한 프로토타입 평균화를 사용한다; 모드 2는 양극화된 프로토타입을 사용해 제한적인 재학습을 수행한다; 모드 3는 새로운 손실 함수를 사용해 재학습 전에 프로토타입을 준직교 방향으로 유도한다.
메타학습 기간 동안 소프트 절대 주의 메커니즘을 적용하여 특징 표현 품질과 클래스 간 분리도를 향상시킨다.
각도 및 복원 손실 함수의 조합을 통해 프로토타입의 준직교화를 실시하여 클래스 간 간섭을 최소화한다.
모드 2에서는 전역 평균 활성화(GAA) 메모리를 사용하여 활성화 패턴을 저장함으로써 최소한의 계산으로 효율적인 재학습을 가능하게 한다.

실험 결과

연구 질문

RQ1엄격한 메모리 및 계산 제약 조건 하에서 수천 개의 클래스로 확장되는 소수의 샘플로 클래스 증분 학습 시스템이 높은 정확도를 유지할 수 있는가?
RQ2소수의 샘플로 지속적인 학습 중에 클래스 프로토타입 간의 최소한의 간섭을 달성하는 데 초월적 차원 계산이 얼마나 효과적인가?
RQ3제약 조건이 있는 FSCIL 환경에서 다양한 프로토타입 업데이트 전략을 사용할 경우 정확도와 계산 비용 간의 상충 관계는 어떻게 되는가?
RQ4준직교 프로토타입 정렬이 적대적 훈련 없이도 일반화 능력과 강건성을 크게 향상시킬 수 있는가?
RQ5FSCIL 환경에서 모델 압축 및 저정밀도 표현을 얼마나 적용할 수 있으며, 성능 저하 없이 수행 가능한가?

주요 결과

C-FSCIL는 1,200개의 기본 클래스 위에 423개의 새로운 클래스를 학습할 때 정확도 감소율이 1.6% 이하로 유지되며, CIFAR100, mini-ImageNet, Omniglot에서 모든 기준 모델을 능가한다.
가장 단순한 모드 1(재학습 없이 프로토타입 평균화)조차도 CIFAR100과 mini-ImageNet에서 모든 이전 방법을 능가하여 준직교 프로토타입의 효과를 입증한다.
모드 3는 새로운 손실 함수를 사용해 프로토타입을 유도함으로써 대규모 FSCIL 문제에서 기준 모델 대비 최대 4% 높은 정확도를 달성한다.
Omniglot에서 모드 3의 C-FSCIL는 10회의 세션 이후 85.70%의 정확도를 기록하며, ProtoNet과 CEC를 각각 최소 8.30%, 16.99% 이상 능가한다.
임bedding 차원을 d = 64로 감소시켜도 정확도 저하가 미미하며, 여전히 모든 기준 모델을 능가한다.
소프트 절대 주의 함수는 표준 지수 주의 함수 대비 신규 클래스 학습 시 성능 향상을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.