Skip to main content
QUICK REVIEW

[논문 리뷰] Inducing Neural Collapse in Imbalanced Learning: Do We Really Need a Learnable Classifier at the End of Deep Neural Network?

Yibo Yang, Shixiang Chen|arXiv (Cornell University)|2022. 03. 17.
Imbalanced Data Classification Techniques인용 수 21
한 줄 요약

논문은 네트워크 끝에서 단순형 ETF 분류기를 고정시키면 데이터 불균형에서도 신경 붕괴가 유도되며, dot-regression 손실로 수렴이 우수해 롱테일 및 미세-다층 분류에서 개선을 얻는다.

ABSTRACT

Modern deep neural networks for classification usually jointly learn a backbone for representation and a linear classifier to output the logit of each class. A recent study has shown a phenomenon called neural collapse that the within-class means of features and the classifier vectors converge to the vertices of a simplex equiangular tight frame (ETF) at the terminal phase of training on a balanced dataset. Since the ETF geometric structure maximally separates the pair-wise angles of all classes in the classifier, it is natural to raise the question, why do we spend an effort to learn a classifier when we know its optimal geometric structure? In this paper, we study the potential of learning a neural network for classification with the classifier randomly initialized as an ETF and fixed during training. Our analytical work based on the layer-peeled model indicates that the feature learning with a fixed ETF classifier naturally leads to the neural collapse state even when the dataset is imbalanced among classes. We further show that in this case the cross entropy (CE) loss is not necessary and can be replaced by a simple squared loss that shares the same global optimality but enjoys a better convergence property. Our experimental results show that our method is able to bring significant improvements with faster convergence on multiple imbalanced datasets.

연구 동기 및 목표

  • 불균형 학습에서 신경 수축에 대해 학습 가능한 끝 분류기가 필요한지 동기를 부여한다.
  • 불균형 하에서 단순형 ETF 분류기를 고정시키는 것이 특징-분류자 간 정렬에 미치는 영향을 조사한다.
  • ETF 분류기에 특화된 이론적 수렴 보장을 가진 손실 함수(dot-regression)를 개발한다.
  • 여러 데이터셋에서 롱테일 및 미세-정밀 분류에 대한 실험적 이익을 보여준다.

제안 방법

  • 마지막 층 분류기를 무작위 단순형 ETF로 초기화하고 학습 중 고정(DLPM) 상태를 유지한다.
  • 고정된 ETF 분류기를 가진 레이어-피울 모델을 분석하여 클래스 균형과 무관하게 신경 수축(NC) 현상이 나타나는지 확인한다.
  • 고정된 ETF와 함께 CE의 그라디언트 다이나믹스를 비교하여 특징들에 대한 푸시 항의 제거를 강조한다.
  • 정확한 클래스 방향으로 당기는 풀링(pull) 기여를 재현하면서 푸시 항를 피하는 dot-regression(DR) 손실을 도입한다.
  • ETF 설정하에서 CE 대 DR의 전역 최적성 및 수렴 특성에 관한 이론적 결과(정리 1, 정리 2)를 제공한다.
  • 롱테일 데이터셋에서의 경험적 개선을 보여주고 미세-정밀 분류로 확장한다.

실험 결과

연구 질문

  • RQ1분류기가 단순형 ETF로 고정되었을 때, 클래스 분포가 불균형하더라도 신경 수축이 유도될 수 있는가?
  • RQ2학습 가능한 분류기를 가진 교차 엔트로피 손실이 소수 클래스 붕괴를 유발하는 원인은 무엇이며, 고정된 ETF 분류기가 이를 피할 수 있는가?
  • RQ3간단한 dot-regression 손실이 같은 전역 최적성을 더 나은 수렴 특성으로 달성하는가?
  • RQ4ETF 고정 방법이 여러 데이터셋에서 롱테일 및 미세-정밀 분류의 실제 성능을 개선하는가?

주요 결과

  • 전역 최적성: 고정된 ETF 분류기를 가진 분리된 레이어-피울 모델의 모든 전역 최적해는 클래스 균형에 관계없이 특징과 분류 방향 사이의 단순형 ETF 정렬을 생성한다(정리 1).
  • 그라디언트 분석은 CE의 푸시 항이 불균형 데이터에서 학습을 불안정하게 만들 수 있음을 보이고, 고정된 ETF는 올바른 클래스 방향으로의 일관된 당김에 의존함으로써 이 문제를 피한다(섹션 4.2의 논의).
  • DR 손실은 고정된 ETF 설정에서 CE와 동일한 신경 수축의 전역 최적성을 공유하지만 수렴 특성이 더 우수하다(정리 2).
  • 다수의 데이터셋 및 백본에서 DR 손실을 가진 ETF 분류기가 롱테일 정확도를 개선하는 것으로 나타났으며, CE를 사용하는 학습 가능한 분류기보다 수렴 속도가 빠른 경우가 많다(표 1–3 논의).
  • 이 방법은 적은 에포크로 학습할 때 ImageNet-LT에서도 이익을 얻고 미세-정밀 분류를 개선한다(표 4 및 섹션 5).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.