QUICK REVIEW

[論文レビュー] Remix: Rebalanced Mixup

Hsin-Ping Chou, Shih-Chieh Chang|arXiv (Cornell University)|Jul 8, 2020

Imbalanced Data Classification Techniques参考文献 47被引用数 57

ひとこと要約

Remixは特徴量混合因子とラベル混合因子を分離することでMixupを緩和し、混合サンプルをマイノリティクラスにラベル付けしてデータ不均衡に対処する。これにより、再重み付けや再サンプリングと組み合わせた場合を含め、Mixupベースの正則化を複数のデータセットで改善する。

ABSTRACT

Deep image classifiers often perform poorly when training data are heavily class-imbalanced. In this work, we propose a new regularization technique, Remix, that relaxes Mixup's formulation and enables the mixing factors of features and labels to be disentangled. Specifically, when mixing two samples, while features are mixed in the same fashion as Mixup, Remix assigns the label in favor of the minority class by providing a disproportionately higher weight to the minority class. By doing so, the classifier learns to push the decision boundaries towards the majority classes and balance the generalization error between majority and minority classes. We have studied the state-of-the art regularization techniques such as Mixup, Manifold Mixup and CutMix under class-imbalanced regime, and shown that the proposed Remix significantly outperforms these state-of-the-arts and several re-weighting and re-sampling techniques, on the imbalanced datasets constructed by CIFAR-10, CIFAR-100, and CINIC-10. We have also evaluated Remix on a real-world large-scale imbalanced dataset, iNaturalist 2018. The experimental results confirmed that Remix provides consistent and significant improvements over the previous methods.

研究の動機と目的

不均衡な学習データによって偏った深層画像分類モデルの問題に対処する。
Mixupベースの正則化において特徴量とラベルの混合因子を分離するRemixを導入する。
不均衡なベンチマークに対してRemixがMixup、Manifold Mixup、CutMixより優れていることを示す。
再重み付けや再サンプリング技術と組み合わせた場合のRemixの互換性と付加的効果を示す。

提案手法

特徴量とラベル用に別々の混合因子を定義するRemixを導入する：tilde x_RM = lambda_x x_i + (1-lambda_x) x_j および tilde y_RM = lambda_y y_i + (1-lambda_y) y_j。
lambda_yをクラスの頻度(n_i, n_j)に依存させるルールを導入し、kappaとtauを用いてマイノリティクラスにラベルを強調する。
lambda_y = lambda_xのときRemixは標準のMixup/Manifold Mixup/CutMixに縮退することを示し、Remixを既存のMixupベースの手法と統合する方法を説明する。
サンプリングペアの取得、Betaからのlambda_xの抽出、lambda_yの計算、Remixサンプルの形成、Remix損失によるモデルの更新というアルゴリズムの概要を提供する。
ハイパーパラメータの選択（tau、kappa）に関する指針を示し、他の不均衡処理技術との統合の容易さを強調する。

実験結果

リサーチクエスチョン

RQ1特徴量とラベルの混合因子を分離することはクラス不均衡下での学習を改善するか？
RQ2Remixは不均衡データセットにおけるMixupベースの手法（Mixup、Manifold Mixup、CutMix）と比較してどのように性能を発揮するか？
RQ3Remixはリ Weighted再割り当てと再サンプリング戦略を強化して、長尾およびステップ不均衡シナリオで優れた結果を生み出すか？
RQ4Remixの実用的なハイパーパラメータ感度（tau、kappa）と統合上の考慮点は？
RQ5RemixはiNaturalist 2018のような大規模実世界の不均衡データに対して効果的か？

主な発見

Remixは不均衡なCIFAR-10/100およびCINIC-10において、ベースのMixup、Mixupベース手法、および複数の再重み付け/再サンプリングのベースラインを一貫して上回る。
Remixは遅延再重み付け（DRW）または遅延再サンプリング（DRS）と組み合わせると強い改善を達成し、テスト済み構成の中で最良の結果を出すことが多い。
この手法はステップ不均衡下で特に有益であり、実世界の不均衡データ（iNaturalist 2018）でも効果的であり続ける。
Remixは他のMixupベースの正則化（例：Manifold Mixup、CutMix）と互換性があり、特に深刻な不均衡（rho = 100）の場合にその性能を一般的に向上させる。
定性的分析は、Remixが意思決定境界をマイノリティクラスへシフトさせ、マジョリティクラスのマージンを縮めつつ、マイノリティクラスの決定を改善することを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。