QUICK REVIEW

[논문 리뷰] Identifying and Compensating for Feature Deviation in Imbalanced Deep Learning

Han-Jia Ye, Hong-You Chen|arXiv (Cornell University)|2020. 01. 06.

Imbalanced Data Classification Techniques참고 문헌 62인용 수 55

한 줄 요약

논문은 불균형 심층 학습에서 작은 클래스에 과적합을 유발하는 특징 편차 현상을 식별하고, 훈련 중 보상을 위해 클래스 의존적 온도(CDT)를 제안하여 벤치마크에서 작은 클래스의 성능을 향상시킨다.

ABSTRACT

Classifiers trained with class-imbalanced data are known to perform poorly on test data of the "minor" classes, of which we have insufficient training data. In this paper, we investigate learning a ConvNet classifier under such a scenario. We found that a ConvNet significantly over-fits the minor classes, which is quite opposite to traditional machine learning algorithms that often under-fit minor classes. We conducted a series of analysis and discovered the feature deviation phenomenon -- the learned ConvNet generates deviated features between the training and test data of minor classes -- which explains how over-fitting happens. To compensate for the effect of feature deviation which pushes test data toward low decision value regions, we propose to incorporate class-dependent temperatures (CDT) in training a ConvNet. CDT simulates feature deviation in the training phase, forcing the ConvNet to enlarge the decision values for minor-class data so that it can overcome real feature deviation in the test phase. We validate our approach on benchmark datasets and achieve promising performance. We hope that our insights can inspire new ways of thinking in resolving class-imbalanced deep learning.

연구 동기 및 목표

ConvNets가 긴 꼬리 분포에서 작은 클래스에 과적합하는 이유를 이해한다.
작은 클래스에 대한 학습 및 테스트 데이터 간의 특징 편차를 특성화한다.
불균형 학습에서 재가중화 및 재샘플링의 한계를 평가한다.
특징 편차를 감소시키지 않으면서 보정 효과를 가져가는 학습 전략(CDT)을 제안하고 검증한다.

제안 방법

불균형 데이터에서의 ConvNet 동작을 실험적으로 분석하고 작은 클래스에 대해 학습 특징과 테스트 특징 간의 편차를 관찰한다.
분류기를 ŷ = arg max_c w_c^T f_theta(x)로 분해하고 특징 공간에서 작은 클래스가 어떻게 편차를 보이는지 연구한다.
클래스별 학습 특징 평균과 테스트 특징 평균 간의 거리로 특징 편차를 정량화한다(Equation 4).
학습 목표를 수정하기 위해 클래스 의존적 온도 a_c를 도입하여 실제로 작은 클래스의 의사 결정 값을 확장한다.
보상의 정도를 제어하기 위해 a_c = (N_max / N_c)^gamma with gamma >= 0를 정의하고 수정된 cross-entropy로 학습한다(Equation 5).
CDT를 CIFAR-10/100, Tiny-ImageNet, iNaturalist에서 다양한 불균형 비율로 평가하고 ERM, 재샘플링, 재가중 baselines와 비교한다.

실험 결과

연구 질문

RQ1불균형 심층 학습에서 ConvNets가 작은 클래스의 성능이 저조하게 나오는 원인은 무엇인가?
RQ2학습 데이터와 테스트 데이터 간의 특징 편차가 작은 클래스에 대한 과적합을 설명하는가?
RQ3CDT를 통해 학습 objective를 특징 편차를 시뮬레이션하도록 조정하면 편차 자체를 줄이지 않아도 테스트 성능을 향상시킬 수 있는가?
RQ4표준 불균형 벤치마크에서 CDT가 재샘플링 및 재가중과 어떻게 비교되는가?

주요 결과

불균형 데이터에서 end-to-end로 학습된 ConvNets는 일부 전통적 방법과 달리 작은 클래스에 과적합한다.
작은 클래스의 특징은 학습 세트와 테스트 세트 간에 다르게 나타나며, 편차는 클래스 빈도가 감소할수록 커진다.
단순 재샘플링 및 재가중은 특징 편차를 줄이지 못하고 작은 클래스의 성능을 개선하지 못하거나 오히려 악화시킬 수 있다.
학습 중 작은 클래스의 의사 결정 값을 확장하여 특징 편차를 보정하는 클래스 의존적 온도(CDT)가 테스트 정확도를 향상시킨다.
CDT는 여러 벤치마크(CIFAR-10/100, Tiny-ImageNet, iNaturalist)에서 최첨단 방법과 비교해 우수하거나 경쟁력 있는 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.