QUICK REVIEW

[논문 리뷰] Maintaining Discrimination and Fairness in Class Incremental Learning

Bowen Zhao, Xi Xiao|arXiv (Cornell University)|2019. 11. 16.

Domain Adaptation and Few-Shot Learning참고 문헌 20인용 수 31

한 줄 요약

이 논문은 지식 정착(KD)을 통해 내부 클래스 간의 구분 능력을 유지하고, 사후 훈련 단계에서 가중치 정렬(WA) 기법을 활용해 완전 연결 층의 편향된 가중치를 보정함으로써 클래스 증분 학습에서 치명적인 잊음(catastrophic forgetting)을 완화하는 새로운 방법을 제안한다. 이는 오래된 클래스와 새로운 클래스 간의 공정성에 크게 기여하며, 검증 세트나 추가 파라미터 없이 ImageNet-1000, ImageNet-100, CIFAR-100에서 최고 성능을 달성한다.

ABSTRACT

Deep neural networks (DNNs) have been applied in class incremental learning, which aims to solve common real-world problems of learning new classes continually. One drawback of standard DNNs is that they are prone to catastrophic forgetting. Knowledge distillation (KD) is a commonly used technique to alleviate this problem. In this paper, we demonstrate it can indeed help the model to output more discriminative results within old classes. However, it cannot alleviate the problem that the model tends to classify objects into new classes, causing the positive effect of KD to be hidden and limited. We observed that an important factor causing catastrophic forgetting is that the weights in the last fully connected (FC) layer are highly biased in class incremental learning. In this paper, we propose a simple and effective solution motivated by the aforementioned observations to address catastrophic forgetting. Firstly, we utilize KD to maintain the discrimination within old classes. Then, to further maintain the fairness between old classes and new classes, we propose Weight Aligning (WA) that corrects the biased weights in the FC layer after normal training process. Unlike previous work, WA does not require any extra parameters or a validation set in advance, as it utilizes the information provided by the biased weights themselves. The proposed method is evaluated on ImageNet-1000, ImageNet-100, and CIFAR-100 under various settings. Experimental results show that the proposed method can effectively alleviate catastrophic forgetting and significantly outperform state-of-the-art methods.

연구 동기 및 목표

지식 정착이 클래스 증분 학습에서 실제로 수행하는 역할을 규명하고, 그 이점과 한계를 함께 분석한다.
최종 완전 연결 층의 비균형 가중치로 인해 발생하는 새로운 클래스에 대한 모델의 편향 원인을 규명하고 이를 해결한다.
오래된 클래스 내의 구분 능력과 오래된 클래스와 새로운 클래스 간의 공정성을 유지하는 단순하면서 효과적인 방법을 개발한다.
지속적 학습에서 검증 세트나 추가로 학습 가능한 파라미터가 필요 없도록 한다.
ImageNet-1000, ImageNet-100, CIFAR-100과 같은 표준 벤치마크에서 최고 성능을 달성한다.

제안 방법

훈련 중에 지식 정착(KD)을 적용하여 교사 모델의 소프트 레이블을 전달함으로써 오래된 클래스 내의 분류 특징를 유지한다.
표준 훈련 이후, 최종 완전 연결 층의 가중치 편향을 보정하기 위한 사후 처리 단계인 가중치 정렬(WA)을 수행한다.
WA는 오래된 클래스와 새로운 클래스의 가중치 벡터의 L2-노름을 기반으로 스케일 인자 γ를 계산하고, 새로운 클래스의 로짓을 재스케일링하여 예측 신뢰도를 균형 잡는다.
이 방법은 추가 파라미터나 검증 세트가 필요 없으며, 훈련된 모델의 가중치 정보만을 사용한다.
스케일 인자 γ는 새로운 클래스의 출력 로짓에 적용되어 과도한 확신도를 감소시키고 공정성을 향상시킨다.
이 방법은 L1 또는 L2 노름 선택에 대해 강건하며, 예시 선택 전략에 영향을 거의 받지 않아 성능에 미치는 영향이 최소화된다.

실험 결과

연구 질문

RQ1지식 정착만으로도 클래스 증분 학습에서 치명적인 잊음을 충분히 해결할 수 있는가, 아니면 숨겨진 한계가 존재하는가?
RQ2최종 완전 연결 층의 비균형 가중치가 모델이 새로운 클래스를 선호하게 만드는 데 얼마나 기여하는가?
RQ3재훈련 없이도 검증 세트 없이 오래된 클래스와 새로운 클래스 간의 공정성을 향상시킬 수 있는가?
RQ4훈련된 모델의 가중치 정보만으로도 가중치 편향을 보정할 수 있는가?
RQ5제안된 방법은 정확도와 효율성 측면에서 기존 최고 수준의 접근 방식과 비교해 어떻게 성능을 내는가?

주요 결과

제안된 방법은 100개의 증분 단계를 거친 ImageNet-1000에서 72.9%의 top-1 정확도를 달성하여 이전 최고 성능 기록을 초월한다.
20개의 증분 단계를 거친 CIFAR-100에서 평균 정확도 62.6%를 기록하여 BiC(62.1%) 및 기타 최고 수준의 기법들을 능가한다.
지식 정착은 오래된 클래스 내의 분류 능력을 효과적으로 유지하지만, 새로운 클래스에 대한 모델의 편향을 보정하지 못한다.
가중치 정렬(WA)은 가중치 노름에서 유도된 스케일 인자로 새로운 클래스의 로짓을 재스케일링하여 공정성을 크게 향상시키며, 추가 파라미터 없이도 가능하다.
이 방법은 L1 또는 L2 노름 선택에 대해 강건하며, 예시 선택 전략에 따라 성능 변동이 거의 없이 안정적인 성능을 보인다.
절단 실험 결과, 가중치를 양수로 제한함으로써 스케일 인자 γ의 안정성이 향상되어 공정성 향상에 기여함을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.