[論文レビュー] The Effects of Regularization and Data Augmentation are Class Dependent
本論文は、データ拡張やウェイト減衰といった一般的な正則化手法がクラス依存のバイアスを生み出し、平均精度を改善する一方で特定のクラスの性能を劇的に損ない、転移学習タスクへバイアスを移すことを示している。
Regularization is a fundamental technique to prevent over-fitting and to improve generalization performances by constraining a model's complexity. Current Deep Networks heavily rely on regularizers such as Data-Augmentation (DA) or weight-decay, and employ structural risk minimization, i.e. cross-validation, to select the optimal regularization hyper-parameters. In this study, we demonstrate that techniques such as DA or weight decay produce a model with a reduced complexity that is unfair across classes. The optimal amount of DA or weight decay found from cross-validation leads to disastrous model performances on some classes e.g. on Imagenet with a resnet50, the "barn spider" classification test accuracy falls from $68\%$ to $46\%$ only by introducing random crop DA during training. Even more surprising, such performance drop also appears when introducing uninformative regularization techniques such as weight decay. Those results demonstrate that our search for ever increasing generalization performance -- averaged over all classes and samples -- has left us with models and regularizers that silently sacrifice performances on some classes. This scenario can become dangerous when deploying a model on downstream tasks e.g. an Imagenet pre-trained resnet50 deployed on INaturalist sees its performances fall from $70\%$ to $30\%$ on class \#8889 when introducing random crop DA during the Imagenet pre-training phase. Those results demonstrate that designing novel regularizers without class-dependent bias remains an open research question.
研究の動機と目的
- 正則化がクラス間でモデルのバイアスを形作る仕組みを動機づけ、定量化する。
- データ拡張が一部のクラスではラベル保持的であるが、他のクラスではそうでないことを示す。
- ウェイト減衰がデータ拡張と同様のクラス依存バイアスを誘発することを示す。
- 正則化によるバイアスが転移学習の下流タスクへ転移する様子を検討する。
提案手法
- データ拡張が真のラベルレベル集合を保持しない変換の場合、不可避的なバイアスを導入する理論的直感を提供する。
- 複数のアーキテクチャにわたり、ImageNet上で異なるデータ拡張強度によるクラス別性能を実証的に分析する。
- 異なるDAポリシーでモデルを訓練し、クラスごとの精度について統計的検定を行うことによって、クラス別のバイアスを感度分析で定量化する。
- uninformed な正則化子であるウェイト減衰を用いて分析を再現し、クラス依存のバイアスを示す。
- vary DA を用いた事前学習で転移先データセット(INaturalist)におけるクラス別性能を評価し、転移学習を調査する。
実験結果
リサーチクエスチョン
- RQ1データ拡張は全体の平均精度を向上させる一方で、クラス依存のバイアスを生み出すのか?
- RQ2観測されたクラス別バイアスはアーキテクチャやデータセットを超えて一貫しているのか?
- RQ3ウェイト減衰はデータ拡張と同様のクラス依存バイアスを生み出すのか?
- RQ4事前学習時の正則化は転移学習における下流タスクのバイアスを生むのか?
- RQ5ソースデータセットからターゲットデータセットへのクラス依存バイアスの転移はどの程度か?
主な発見
- データ拡張は平均的なテスト精度を向上させる一方で、いくつかのクラスの精度を低下させる。
- DAによるクラス別バイアスはクラス依存的で、アーキテクチャやDAの種類(ランダムクロップ、CutOut、カラー ジitter など)を超えて持続する。
- ウェイト減衰も同様にクラス依存のバイアスを誘発する、回帰子が情報不足でも。
- 正則化によるバイアスは転移学習の下流タスクにも転移し、ターゲットクラスの性能に影響を与える。
- ソースデータセットの平均性能で選択されたモデルは、ターゲットデータセットの関心クラスにとって最もバイアスが大きい可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。