Skip to main content
QUICK REVIEW

[論文レビュー] Does Distributionally Robust Supervised Learning Give Robust Classifiers?

Weihua Hu, Gang Niu|arXiv (Cornell University)|Nov 7, 2016
Domain Adaptation and Few-Shot Learning被引用数 106
ひとこと要約

本論文は、f-divergences を用いた DRSL が分類において訓練分布に対して最適な分類器を生み出すことを示し、悲観論の源を明らかにし、潜在的事前分布変化に基づく構造的制約を備えた DRSL を提案し、効率的なアルゴリズムと経験的検証を示す。

ABSTRACT

Distributionally Robust Supervised Learning (DRSL) is necessary for building reliable machine learning systems. When machine learning is deployed in the real world, its performance can be significantly degraded because test data may follow a different distribution from training data. DRSL with f-divergences explicitly considers the worst-case distribution shift by minimizing the adversarially reweighted training loss. In this paper, we analyze this DRSL, focusing on the classification scenario. Since the DRSL is explicitly formulated for a distribution shift scenario, we naturally expect it to give a robust classifier that can aggressively handle shifted distributions. However, surprisingly, we prove that the DRSL just ends up giving a classifier that exactly fits the given training distribution, which is too pessimistic. This pessimism comes from two sources: the particular losses used in classification and the fact that the variety of distributions to which the DRSL tries to be robust is too wide. Motivated by our analysis, we propose simple DRSL that overcomes this pessimism and empirically demonstrate its effectiveness.

研究の動機と目的

  • DRSL with f-divergences の分類設定での動機づけと分析。
  • 既存の DRSL がなぜ過度に悲観的になり訓練分布の性能に一致してしまうのかを特定。
  • 潜在的事前確率変化を利用する構造的制約付き DRSL を提案し、悲観性を軽減。
  • 提案手法の効率的なアルゴリズムを開発し、実証的有効性を示す。

提案手法

  • ERM および f-divergences を用いた DRSL をレビューし、敵対的リスク 7 リスク最小化目的 (ARM/AERM) を定式化。
  • 0-1 損失の場合、敵対的リスクは通常のリスクと単調関係となり、訓練分布最適性を導く(定理 1 ˜)。
  • 分類に適合した代理損失を用いると、ARM/AERM の下で訓練分布最適性が得られることを示す(定理 2)。
  • 潜在事前変化を課して構造的 DRSL を導入する: q(z) ∝ p(z), q(x,y|z) = p(x,y|z)。
  • 構造的敵対リスク(s-adv)と f-divergences の下での重みベクトル w(z) を用いた構造的 AERM を定式化(式 16 ˜)。
  • KL および PE ダイバージェンスの閉形式更新を導出し、Danskin の定理を用いた効率的勾配ベース学習と内側最大化の計算負荷軽減(式 22 ˜、23)。

実験結果

リサーチクエスチョン

  • RQ1f-divergence ボールで捉えられる分布シフトは、分類設定で本当に頑健な分類器を生み出すのか?
  • RQ2f-divergences を用いた DRSL はなぜ悲観的な分類器を生み、訓練分布の性能と一致するのか?
  • RQ3分布シフトに対する構造的制約は頑健性を高め得るのか、そしてそれを効率的に学習する方法は?
  • RQ4KL および Pearson ダイバージェンスは構造 DRSL の計算効率と最適化にどのような影響を与えるのか?
  • RQ5潜在事前変更の仮定は実データで実用的な頑健性の利得を生み出すのか?

主な発見

  • 分類において、f-divergences を用いた ARM/AERM は訓練分布に対して最適な分類器を生み出す傾向がある(定理 1 ˜)。
  • 鋭い代理損失を用いても、分類タスクにおいて分布シフトに対する頑健な分類器を必ずしも生み出さない(定理 3 の議論)。
  • 分類に適合した代理損失は、仮説クラスがすべての可測関数である場合、ARM/AERM の下で ERM に類似した振る舞いを引き起こす(定理 2)。
  • 潜在事前変化を用いた構造的 DRSL は ARM/AERM の悲観性を低減し、より意味のある頑健性をもたらす(_struct-ARM/AERM_)。
  • 構造 DRSL は mild conditions の下で N データでパラメータ推定の収束速度を N^{-1/4} のオーダーで得る(定理 4 の暫定的結論)。
  • KL および PE ダイバージェンスのための効率的学習アルゴリズムを導出し、内最大化の計算負荷を抑える(式 22、23)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。