Skip to main content
QUICK REVIEW

[論文レビュー] Delving into Deep Imbalanced Regression

Yuzhe Yang, Kaiwen Zha|arXiv (Cornell University)|Feb 18, 2021
Imbalanced Data Classification Techniques参考文献 38被引用数 120
ひとこと要約

DIR は不均衡な連続ターゲットからの学習を、ラベル分布と特徴分布を滑らかにすることで研究しており;ラベル分布滑らか化 (LDS) および特徴分布滑らか化 (FDS) を導入し、視覚、NLP、医療データセット全体でベンチマークを行う。

ABSTRACT

Real-world data often exhibit imbalanced distributions, where certain target values have significantly fewer observations. Existing techniques for dealing with imbalanced data focus on targets with categorical indices, i.e., different classes. However, many tasks involve continuous targets, where hard boundaries between classes do not exist. We define Deep Imbalanced Regression (DIR) as learning from such imbalanced data with continuous targets, dealing with potential missing data for certain target values, and generalizing to the entire target range. Motivated by the intrinsic difference between categorical and continuous label space, we propose distribution smoothing for both labels and features, which explicitly acknowledges the effects of nearby targets, and calibrates both label and learned feature distributions. We curate and benchmark large-scale DIR datasets from common real-world tasks in computer vision, natural language processing, and healthcare domains. Extensive experiments verify the superior performance of our strategies. Our work fills the gap in benchmarks and techniques for practical imbalanced regression problems. Code and data are available at https://github.com/YyzHarry/imbalanced-regression.

研究の動機と目的

  • Deep Imbalanced Regression (DIR) を定義し、不均衡下の連続ターゲットにおける課題を整理する。
  • ラベル分布と特徴分布を調整するための、滑らか化ベースの2手法(LDSとFDS)を提案する。
  • 視覚、NLP、医療分野にまたがる大規模DIRベンチマークを整備し、堅牢な評価を行う。
  • LDS/FDSを既存のベースラインと組み合わせた場合に、タスク全般で一貫した改善を示す。

提案手法

  • 連続ターゲットビンと欠損領域を伴うDIRを形式的に定義する。
  • Label Distribution Smoothing (LDS): カーネル滑らか化により経験的ラベル密度を平滑化し、損失の再加重のための実効的なラベル密度を得る。
  • Feature Distribution Smoothing (FDS): ターゲットビン全体で特徴統計量(平均と共分散)をカーネル滑らかにし、特徴を校正するために whitening/再着色を適用する。
  • LDSとFDSをモーメントベースのランニング統計を伴うエンドツーエンドの深層学習モデルに統合する。
  • IMDB-WIKI-DIR, AgeDB-DIR, STS-B-DIR, NYUD2-DIR, SHHS-DIR のDIRデータセットを、さまざまなアーキテクチャでベンチマークする。
  • Vanillaトレーニング、SMOTER/SMOGN系のバリアント、再重み付けスキームを含むベースラインと比較評価する。

実験結果

リサーチクエスチョン

  • RQ1従来の分類不均衡と比較して、連続ターゲットの不均衡は学習にどのような影響を与えるのか?
  • RQ2LDSとFDSは、many-shot/medium-shot/few-shot/zero-shotの領域で回帰性能を改善するのか?
  • RQ3DIR手法は、訓練データがほとんどない、または全くないターゲット領域へ外推/内挿できるか?
  • RQ4多様なタスクとモダリティにおける既存の不均衡回帰のベースラインとLDS/ FDSはどのように相互作用するか?

主な発見

  • LDSとFDSは、視覚、NLP、医療の5つの実世界データセットでDIRの性能を一貫して改善する。
  • LDSとFDSを組み合わせると最も大きな改善が得られ、特にMedium-shotおよびFew-shot領域、および外推/内挿で顕著。
  • 不均衡分類から適用されたベースライン手法(例えば再加重、SMOTE系のバリアント)は高次元の連続ターゲットではしばしば劣後する一方、LDS/FDSは堅牢なゲインを提供する。
  • DIRベンチマークは、回帰と分類における不均衡学習の異なる挙動を明らかにし、ターゲットを絞った滑らか化手法の必要性を正当化する。
  • 実験結果は、LDSとFDSを用いるとzero-shot領域への一般化が向上することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。