QUICK REVIEW

[論文レビュー] An Online-Learning Approach to Inverse Optimization

Andreas Bärmann, Alexander Martín|arXiv (Cornell University)|Oct 30, 2018

Advanced Bandit Algorithms Research被引用数 6

ひとこと要約

本稿では、逐次的な入力パラメータとそれに対応する最適意思決定の観測から、未知の線形目的関数を学習するオンライン学習フレームワークを提案する。オンライン勾配降下法と乗法的重み更新アルゴリズムを用いることで、レジットとサーヴェイコストの偏差においてO(1/√T)の収束を達成し、動的または準最適なデータでさえも高速かつ正確に目的関数を学習可能であり、非線形・パラメータ化された目的関数や変化する目的関数へも一般化可能である。

ABSTRACT

In this paper, we demonstrate how to learn the objective function of a decision-maker while only observing the problem input data and the decision-maker's corresponding decisions over multiple rounds. We present exact algorithms for this online version of inverse optimization which converge at a rate of $ \mathcal{O}(1/\sqrt{T}) $ in the number of observations~$T$ and compare their further properties. Especially, they all allow taking decisions which are essentially as good as those of the observed decision-maker already after relatively few iterations, but are suited best for different settings each. Our approach is based on online learning and works for linear objectives over arbitrary feasible sets for which we have a linear optimization oracle. As such, it generalizes previous approaches based on KKT-system decomposition and dualization. We also introduce several generalizations, such as the approximate learning of non-linear objective functions, dynamically changing as well as parameterized objectives and the case of suboptimal observed decisions. When applied to the stochastic offline case, our algorithms are able to give guarantees on the quality of the learned objectives in expectation. Finally, we show the effectiveness and possible applications of our methods in indicative computational experiments.

研究の動機と目的

入力パラメータとそれに対応する最適意思決定の繰り返し観測から、エキスパートの未知の線形目的関数を推定するオンライン学習フレームワークの開発。
ストリーム形式でデータが到着する環境において、リアルタイムで目的関数を学習可能にする。動的または時間変化する意思決定環境に適している。
線形最適化オракルを用いたオンライン学習アルゴリズムを活用することで、従来の静的・凸的・KKTに基づく手法にとどまらない逆最適化の一般化。
意思決定の性能とコスト偏差の観点から、学習された目的関数の品質に関する理論的保証の提供。
非線形目的関数、パラメータ化された目的関数、および準最適な観測意思決定に対応するフレームワークの拡張。

提案手法

各観測から得られるフィードバックに基づき、逐次的に目的関数を改善するため、オンライン勾配降下法（OGD）と乗法的重み更新法（MWU）アルゴリズムを用いる。
各ラウンドtにおいて、入力ptを観測し、サーヴェイ目的関数ctを選択し、最適意思決定x̄t = argmax{cₜᵀx | x ∈ X(pt)}を計算した後、エキスパートの意思決定xtを観測し、勾配または重みベースの更新によりctを更新する。
任意の候補目的関数に対して最適意思決定を計算するための線形最適化オラクルを活用し、複雑な可能集合に対してもスケーラビリティを確保する。
学習された目的関数が有界な可能集合（例：単位立方体）内に保たれるように、射影更新ルールを適用することで収束性と安定性を維持する。
カーネル近似や区分線形化を用いることで非線形目的関数へ一般化し、構造化されたパrameter空間を用いてパラメータ化された目的関数に対応する。
準最適意思決定に対処するため、スラック変数やロバスト損失関数を導入し、観測意思決定からの逸脱をペナルティ化する。

実験結果

リサーチクエスチョン

RQ1最適意思決定のみを時間経過とともに観測する状況において、オンライン学習アルゴリズムが低レジットおよびコスト偏差を達成できるか？
RQ2どの程度の速さで目的関数を学習できるか、その結果得られる意思決定がエキスパートの意思決定とほぼ同等の性能を示せるか？
RQ3時間変化する目的関数（例：時間変動する配送コストや収益）に対しても、このフレームワークは適応可能か？
RQ4観測意思決定が最適でない場合、この手法の性能はどの程度保たれるか？
RQ5非線形またはパラメータ化された目的関数を、逐次的データから学習可能に拡張できるか？

主な発見

提案されたオンラインアルゴリズムは、真のコスト偏差およびサーヴェイコスト偏差の両方においてO(1/√T)の収束レートを達成し、少数の観測で高速な学習を実現する。
報酬収集付きTSP設定において、混合符号の係数を有する目的関数を効果的に学習し、動的変化するコスト・収益に対してもロバストであることを示した。
真の目的関数が時間変化する状況でも、アルゴリズムは観測意思決定を真の目的関数の分散内に説明する安定した「ロバスト」な目的関数に収束する。
計算実験では、100ラウンド以内に低い解の誤差と目的関数距離を達成し、平均レジットは急速に減少した。
非線形目的関数および準最適意思決定に対しても、フレームワークは良好な一般化性能を示し、サンプル外テストでも強く性能を維持した。
確率的オフラインケースにおいても理論的保証が期待値の意味で成立し、不確実性下での手法の信頼性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。