Skip to main content
QUICK REVIEW

[논문 리뷰] Delving into Deep Imbalanced Regression

Yuzhe Yang, Kaiwen Zha|arXiv (Cornell University)|2021. 02. 18.
Imbalanced Data Classification Techniques참고 문헌 38인용 수 120
한 줄 요약

DIR는 불균형한 연속 타깃에서 라벨 및 특징 분포를 평활화(smoothing)하여 학습을 개선하는 방법을 연구하며; Label Distribution Smoothing (LDS)와 Feature Distribution Smoothing (FDS)를 도입하고 비전, NLP, 헬스케어 데이터셋 전반의 벤치마크를 제시한다.

ABSTRACT

Real-world data often exhibit imbalanced distributions, where certain target values have significantly fewer observations. Existing techniques for dealing with imbalanced data focus on targets with categorical indices, i.e., different classes. However, many tasks involve continuous targets, where hard boundaries between classes do not exist. We define Deep Imbalanced Regression (DIR) as learning from such imbalanced data with continuous targets, dealing with potential missing data for certain target values, and generalizing to the entire target range. Motivated by the intrinsic difference between categorical and continuous label space, we propose distribution smoothing for both labels and features, which explicitly acknowledges the effects of nearby targets, and calibrates both label and learned feature distributions. We curate and benchmark large-scale DIR datasets from common real-world tasks in computer vision, natural language processing, and healthcare domains. Extensive experiments verify the superior performance of our strategies. Our work fills the gap in benchmarks and techniques for practical imbalanced regression problems. Code and data are available at https://github.com/YyzHarry/imbalanced-regression.

연구 동기 및 목표

  • Deep Imbalanced Regression (DIR)을 정의하고 불균형 하에서 연속 타깃에 대한 도전 과제를 설명한다.
  • LDS 및 FDS를 제안하여 라벨 분포와 특징 분포를 보정한다.
  • 비전, NLP, 헬스케어 전반에 걸친 대규모 DIR 벤치마크를 구성하여 강건한 평가를 수행한다.
  • 다양한 태스크에서 기존 베이스라인과 결합했을 때 일관된 개선을 보여준다.

제안 방법

  • 연속 타깃 빈(bin)과 누락 영역을 갖는 DIR을 형식적으로 정의한다.
  • Label Distribution Smoothing (LDS): 커널로 경험적 라벨 밀도를 스무딩하여 재가중 손실에 사용할 효과적인 라벨 밀도를 얻는다.
  • Feature Distribution Smoothing (FDS): 커널로 특징 통계(평균 및 공분산)를 타깃 구간 전반에 걸쳐 스무딩하고 특징을 보정하기 위해 화이트닝/리-컬러링을 적용한다.
  • LDS와 FDS를 모멘텀 기반 런닝 통계와 함께 엔드-투-엔드 딥러닝 모델에 통합한다.
  • IMDB-WIKI-DIR, AgeDB-DIR, STS-B-DIR, NYUD2-DIR, SHHS-DIR에 대해 다양한 아키텍처로 벤치마크를 수행한다.
  • Vanilla training, SMOTER/SMOGN 변형 및 재가중 스킴을 포함한 베이스라인 대비 평가한다.

실험 결과

연구 질문

  • RQ1연속 타깃 불균형이 분류 불균형에 비해 학습에 어떤 영향을 미치는가?
  • RQ2LDS와 FDS가 다소-샷, 중간 샷, 소수 샷, 제로 샷 영역에서 회귀 성능을 개선하는가?
  • RQ3DIR 방식이 학습 데이터가 거의 없거나 없는 타깃 영역으로 외삽/내삽할 수 있는가?
  • RQ4다양한 태스크와 모달리티에서 LDS와 FDS가 기존의 불균형 회귀 베이스라인과 어떻게 상호작용하는가?

주요 결과

  • LDS와 FDS는 비전, NLP, 헬스케어의 다섯 가지 실제 데이터셋에서 DIR 성능을 일관되게 향상시킨다.
  • LDS와 FDS를 결합하면 중간 샷 및 소수 샷 영역, 그리고 외삽/내삽에서 특히 강력한 이득이 발생한다.
  • 높은 차원의 연속 타깃에 대해 재가중화와 SMOTE 변형과 같은 불균형 분류에서 차용된 베이스라인은 종종 성능이 떨어지는 반면, LDS/FDS는 강건한 이득을 제공한다.
  • DIR 벤치마크는 회귀에서의 불균형 학습이 분류와 달리 뚜렷한 특성을 보임을 드러내며, targeted smoothing 접근의 필요성을 정당화한다.
  • 실험 결과 LDS와 FDS를 사용할 때 제로샷 영역으로의 일반화가 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.