QUICK REVIEW

[논문 리뷰] Rethinking the Value of Labels for Improving Class-Imbalanced Learning

Yuzhe Yang, Zhi Xu|arXiv (Cornell University)|2020. 06. 13.

Imbalanced Data Classification Techniques참고 문헌 56인용 수 212

한 줄 요약

본 논문은 불균형한 레이블이 클래스 불균형 학습에서 이로울 수 있음을 분석하고, 반(半)지도 학습과 자기지도 학습 모두 성능 향상을 가져올 수 있음을 이론과 대규모 실험으로 보여준다.

ABSTRACT

Real-world data often exhibits long-tailed distributions with heavy class imbalance, posing great challenges for deep recognition models. We identify a persisting dilemma on the value of labels in the context of imbalanced learning: on the one hand, supervision from labels typically leads to better results than its unsupervised counterparts; on the other hand, heavily imbalanced data naturally incurs "label bias" in the classifier, where the decision boundary can be drastically altered by the majority classes. In this work, we systematically investigate these two facets of labels. We demonstrate, theoretically and empirically, that class-imbalanced learning can significantly benefit in both semi-supervised and self-supervised manners. Specifically, we confirm that (1) positively, imbalanced labels are valuable: given more unlabeled data, the original labels can be leveraged with the extra data to reduce label bias in a semi-supervised manner, which greatly improves the final classifier; (2) negatively however, we argue that imbalanced labels are not useful always: classifiers that are first pre-trained in a self-supervised manner consistently outperform their corresponding baselines. Extensive experiments on large-scale imbalanced datasets verify our theoretically grounded strategies, showing superior performance over previous state-of-the-arts. Our intriguing findings highlight the need to rethink the usage of imbalanced labels in realistic long-tailed tasks. Code is available at https://github.com/YyzHarry/imbalanced-semi-self.

연구 동기 및 목표

실제 데이터에서 극심한 클래스 불균형 하에서 레이블 정보의 동작을 이해한다.
불균형 레이블의 긍정적·부정적 측면을 이론적으로 분석한다.
롱테일 태스크의 성능 향상을 위해 불균형 레이블을 활용하는 반지도학습과 자기지도 학습 전략을 제안한다.
CIFAR-10/100-LT, SVHN-LT, ImageNet-LT, 그리고 iNaturalist 2018 전반에 걸친 대규모 실험으로 이론을 검증한다.

제안 방법

가우시안 혼합을 사용하여 불균형 학습을 이론적으로 모델링하고, 불균형 레이블 위의 비라벨 데이터 및 의사 라벨을 연구한다.
라벨 바이어스를 완화하기 위해 비라벨 데이터에 의사 라벨을 사용하는 반지도 학습 프레임워크를 제안한다.
라벨을 사용하지 않고 표준 학습 전에 모델을 초기화하기 위한 자기지도 사전학습(SSP) 단계를 제안한다.
다양한 불균형 비율을 가지는 롱테일 벤치마크에서 SSL과 SSP를 실증적으로 평가한다.
경계 형성 및 클래스 분리 개선을 설명하기 위해 t-SNE 시각화를 사용한다.
SSL/SSP가 기존의 불균형 학습 기법들과의 호환성을 보임을 입증한다.

실험 결과

연구 질문

RQ1의사 라벨이 포함된 비라벨 데이터가 반지도 설정에서 라벨 바이어스를 줄이고 불균형 학습을 개선할 수 있는가?
RQ2반지도 학습은 서로 다른 불균형 비율과 데이터셋에서 일관된 이득을 제공하는가?
RQ3라벨 데이터를 사용하지 않고도 견고한 개선을 제공하는 자기지도 사전학습(SSP)이 불균형 학습에 유효한가?
RQ4비라벨 데이터의 특성(크기와 불균형)이 롱테일 태스크에서 반지도 이득에 어떤 영향을 미치는가?
RQ5SSP의 이득은 소규모와 대규모 불균형 벤치마크에서 일관적인가?

주요 결과

의사 라벨이 있는 비라벨 데이터는 불균형 설정에서 감독형 기준선 대비 상당한 개선을 제공하며, 극단적 불균형에서 약 10 퍼센트 포인트 수준의 이득을 보인다.
더 균형 잡힌 비라벨 데이터와 더 큰 비라벨 데이터 풀은 일반적으로 더 큰 SSL 이득을 낳지만, 효과는 원래의 데이터 불균형에 따라 달라진다.
자기지도 사전학습(SSP)은 다양한 베이스라인과 데이터셋에서 일관되게 성능을 향상시키며, 라벨이 사용된 SSL 방법과 종종 동등하거나 이를 능가한다.
SSP는 고차원 설정에서 even with imbalanced training data에서도 레이블에 구애받지 않는 표현을 학습함으로써 기하급수적에 가까운 개선을 제공할 수 있다.
CIFAR-10-LT, CIFAR-100-LT, ImageNet-LT, 및 iNaturalist 2018 전반에서 SSP는 여러 구성에서 새로운 최첨단 결과를 달성한다.
정성적 분석(t-SNE)은 SSP와 SSL이 꼬리 클래스 분리를 더 명확하게 하고 더 강력한 결정 경계를 형성함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.