QUICK REVIEW

[論文レビュー] What is the Effect of Importance Weighting in Deep Learning?

Jonathon Byrd, Zachary C. Lipton|arXiv (Cornell University)|Dec 8, 2018

Domain Adaptation and Few-Shot Learning参考文献 30被引用数 113

ひとこと要約

本論文は、重要度重み付けがトレーニング初期の深層ネットワークに著しく影響を与える一方で、さらなる学習を進めるとその効果は薄れていくことを示している。正則化とバッチ正規化は一部の効果を回復させ得るが、ドロップアウトは同様の効果を示さない。

ABSTRACT

Importance-weighted risk minimization is a key ingredient in many machine learning algorithms for causal inference, domain adaptation, class imbalance, and off-policy reinforcement learning. While the effect of importance weighting is well-characterized for low-capacity misspecified models, little is known about how it impacts over-parameterized, deep neural networks. This work is inspired by recent theoretical results showing that on (linearly) separable data, deep linear networks optimized by SGD learn weight-agnostic solutions, prompting us to ask, for realistic deep networks, for which many practical datasets are separable, what is the effect of importance weighting? We present the surprising finding that while importance weighting impacts models early in training, its effect diminishes over successive epochs. Moreover, while L2 regularization and batch normalization (but not dropout), restore some of the impact of importance weighting, they express the effect via (seemingly) the wrong abstraction: why should practitioners tweak the L2 regularization, and by how much, to produce the correct weighting effect? Our experiments confirm these findings across a range of architectures and datasets.

研究の動機と目的

重要度重み付けリスク最小化（IW-ERM）が現実的で過 parameterized な設定の深層ニューラルネットワークに与える影響を調べる。
早期停止、正則化（L2、ドロップアウト）、およびバッチ正規化がIW-ERMの効果を調整する役割を検討する。
IW-ERMの影響がアーキテクチャ、データセット、タスク（画像とテキスト）全体で持続するかを評価する。
因果推論、ドメイン適応、オフポリシー学習などの領域で重要度重み付けを利用する際の実用的指針を提供する。

提案手法

Soudry らおよび Gunasekar らのウェイトの方向と大きさに関する理論結果を基に、分離可能データにおけるウェイト非依存的挙動を動機づける。
さまざまなウェイトで決定境界を可視化するため、合成2Dデータセットで広範な実験を実施。
CIFAR-10を用いて、CNNとResNet系の二値・多クラス設定で、バッチ正規化、L2、またはドロップアウトの有無を問わずIW-ERMを評価。
MRPCを用いて、自然言語でBERT系モデルをさまざまな重要度ウェイトでファインチューニングして検証。
SGDとAdamの最適化手法を比較し、最適化方式を跨いだ所見の頑健性を評価。

実験結果

リサーチクエスチョン

RQ1重要度重み付けは、SGDで訓練された分離可能データ上の現代的な深層ネットワークの意思決定境界を変更するか。
RQ2正則化（L2、ドロップアウト）とバッチ正規化は、IW-ERMと深層ネットワークの相互作用にどのような影響を与えるか。
RQ3訓練エポック数が増加するにつれて、アーキテクチャやデータセットを問わずIW-ERMの影響は持続するか。
RQ4重要度重み付けは深層モデルのラベルシフトを意味的に是正し得るか、またどのような訓練条件下でだろうか。
RQ5所見はアーキテクチャ（MLP、CNN、ResNet、トランスフォーマーベース）とドメイン（合成データ、画像、テキスト）全体で一貫しているか。

主な発見

重要度重み付けは初期の訓練結果を大きく変えるが、訓練エポックが進むにつれてその効果は薄れていく。
L2正則化とバッチ正規化はウェイト効果の一部を回復できるが、ドロップアウトは同様の相互作用を示さない。
アーキテクチャ、タスク、データセットを超えて、訓練が進むにつれてモデルは異なる重み付けスキームにもかかわらず類似の解に収束する。
CIFAR-10では、ラベルシフト補正のためのIW-ERMは初期に利得をもたらすが、エポックが増えると効果が薄れる。
強い重み付けがあっても、CIFAR-10とMRPCで訓練されたモデルは、異なる重み付け間でテストラベルに関して高い一致を示し、意思決定境界が類似していることを示している。
重み付けは収束を遅らせる可能性があり、いくつかのネットワークでは効果を安定させるには通常のファインチューニングを大きく超える多くのエポックを要する可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。