Skip to main content
QUICK REVIEW

[論文レビュー] Distributionally Robust Logistic Regression

Soroosh Shafieezadeh-Abadeh, Peyman Mohajerin Esfahani|arXiv (Cornell University)|Sep 30, 2015
Risk and Portfolio Optimization参考文献 33被引用数 178
ひとこと要約

本稿では、訓練データの経験分布の周囲に Wasserstein 距離を用いてあいまいさ集合を構築する分布ロバストなロジスティック回帰モデルを提案する。これにより、外挿性能の保証が得られる。このアプローチは、ロバスト最適化問題を解釈可能な錐計画問題に再定式化し、古典的および正則化ロジスティック回帰を一般化する。同時に、線形計画法を用いて分類誤り確率の計算可能な信頼区間が得られる。

ABSTRACT

This paper proposes a distributionally robust approach to logistic regression. We use the Wasserstein distance to construct a ball in the space of probability distributions centered at the uniform distribution on the training samples. If the radius of this ball is chosen judiciously, we can guarantee that it contains the unknown data-generating distribution with high confidence. We then formulate a distributionally robust logistic regression model that minimizes a worst-case expected logloss function, where the worst case is taken over all distributions in the Wasserstein ball. We prove that this optimization problem admits a tractable reformulation and encapsulates the classical as well as the popular regularized logistic regression problems as special cases. We further propose a distributionally robust approach based on Wasserstein balls to compute upper and lower confidence bounds on the misclassification probability of the resulting classifier. These bounds are given by the optimal values of two highly tractable linear programs. We validate our theoretical out-of-sample guarantees through simulated and empirical experiments.

研究の動機と目的

  • 訓練データがスパースまたはノイズを含む場合に、古典的ロジスティック回帰の外挿性能が劣化する問題に対処すること。
  • 恣意的でない手法を避けるために、分布ロバスト最適化に基づく一貫性のある正則化フレームワークを構築すること。
  • 一般化性能に関する理論的保証を持つ、確率論的に解釈可能な正則化を提供すること。
  • 得られた分類器の誤分類確率に関する、計算可能な上界および下界の信頼区間を算出すること。

提案手法

  • 訓練サンプルの経験分布を中心とする Wasserstein バルを構築し、真のデータ生成分布を確率的に含むように半径を設定する。
  • Wasserstein バル内に含まれるすべての分布についての期待対数損失の最悪ケースを最小化する分布ロバスト最適化問題を定式化する。
  • 双対理論を用いて、双対ノルムおよび指示関数表現を含む錐最適化問題に、ロバスト問題の解釈可能な再定式化を導出する。
  • 分類損失を凹関数の有限最大値として表現し、凸緩和および双対性の適用を可能にする。
  • ロバスト問題を、双対ノルムおよびスラック変数を含む追加変数と制約を導入した線形計画問題に再定式化する。
  • 二つの高効率な線形計画問題の最適値として、誤分類確率に関する計算可能な信頼区間を導出する。

実験結果

リサーチクエスチョン

  • RQ1データがスパースまたは分布がシフトする状況下で、分布ロバスト最適化フレームワークがロジスティック回帰の外挿性能を向上させ得るか?
  • RQ2確率測度空間におけるあいまいさ集合を用いることで、ロジスティック回帰における正則化に確率論的解釈を与える方法は何か?
  • RQ3得られるロバスト最適化問題の計算複雑性は何か? また、解釈可能な形に再定式化可能か?
  • RQ4提案手法は、分類器の誤分類確率について、きめ細かく計算可能な信頼区間を提供できるか?
  • RQ5提案手法は、古典的および正則化ロジスティック回帰の定式化をどのように一般化するか?

主な発見

  • 分布ロバストなロジスティック回帰問題は、古典的および正則化ロジスティック回帰の特殊ケースとして一般化可能な解釈可能な錐再定式化を有する。
  • 双対ノルムおよびスラック変数を含む錐計画問題として、ロバスト最適化問題は効率的に解くことができ、実装が可能である。
  • 最悪ケースリスク(誤分類確率)は、二つの線形計画問題の最適値によって上界および下界が与えられ、計算可能な信頼区間が得られる。
  • ユーザー指定の信頼水準で、真のデータ生成分布が Wasserstein バル内にある確率的保証が非漸近的に得られる。
  • Wasserstein 半径および双対ノルム構造を通じて、正則化が自然に組み込まれ、恣意的でない代替手法としての優位性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。