QUICK REVIEW

[論文レビュー] Drifting Reinforcement Learning: The Blessing of (More) Optimism in Face of Endogenous & Exogenous Dynamics

Wang Chi Cheung, David Simchi‐Levi|arXiv (Cornell University)|Jun 7, 2019

Advanced Bandit Algorithms Research参考文献 33被引用数 2

ひとこと要約

本稿では、時間的に変化する報酬と遷移を伴う非定常MDPにおける強化学習のためのSWUCRL2-CWおよびBORLアルゴリズムを提案する。自信の拡張を用いて、内生的および外生的ドリフトの下でも楽観的であることを維持する。パラメータフリーの動的リグレットバウンドを達成し、既知の予算性能に一致させ、変動環境における楽観的探索の課題を克服する。

ABSTRACT

We consider un-discounted reinforcement learning (RL) in Markov decision processes (MDPs) under temporal drifts, ie, both the reward and state transition distributions are allowed to evolve over time, as long as their respective total variations, quantified by suitable metrics, do not exceed certain variation budgets. This setting captures the endogeneity, exogeneity, uncertainty, and partial feedback in sequential decision-making scenarios, and finds applications in vehicle remarketing and real-time bidding. We first develop the Sliding Window Upper-Confidence bound for Reinforcement Learning with Confidence Widening (SWUCRL2-CW) algorithm, and establish its dynamic regret bound when the variation budgets are known. In addition, we propose the Bandit-over-Reinforcement Learning (BORL) algorithm to adaptively tune the SWUCRL2-CW algorithm to achieve the same dynamic regret bound, but in a parameter-free manner, ie, without knowing the variation budgets. Finally, we conduct numerical experiments to show that our proposed algorithms achieve superior empirical performance compared to existing algorithms. Notably, the interplay between endogeneity and exogeneity presents a unique challenge, absent in existing (stationary and non-stationary) stochastic online learning settings, when we apply the conventional Optimism in Face of Uncertainty principle to design algorithms with provably low dynamic regret for RL in drifting MDPs. We overcome the challenge by a novel confidence widening technique that incorporates additional optimism into our learning algorithms to ensure low dynamic regret bounds. To extend our theoretical findings, we apply our framework to inventory control problems, and demonstrate how one can alternatively leverage special structures on the state transition distributions to bypass the difficulty in exploring time-varying environments.

研究の動機と目的

MDPにおける内生的（自己駆動）および外生的（外部要因）な時間的ドリフトの両方を伴う逐次的意思決定の課題に対処する。
報酬および遷移分布が時間とともに変化する状況において、無割引強化学習のための理論的に有効なアルゴリズムを構築する。変化の制限は、有界な変動予算によって与えられる。
非定常設定における標準的な「不確実性の面前に楽観的である」原則の限界を克服し、変動する環境下でも低動的リグレットを維持するために、自信の拡張を導入する。
変動予算の知識が事前に与えられない状況でも、ドリフトレベルの事前知識なしに動作するパラメータフリーのアルゴリズム（BORL）を設計する。
在庫管理やリアルタイム入札、車両再販売といった実世界の分野を含む、実用的応用を通じて、フレームワークの実用的有効性を示す。

提案手法

スライディングウィンドウに基づくUCB手法としてSWUCRL2-CWアルゴリズムを提案する。これは、推定されたMDPパラメータの信頼区間を維持し、時間変動するダイナミクス下でも楽観的であるように、区間を拡張する。
内生的および外生的ドリフトの両方を明示的に考慮する、新規の自信の拡張技術を導入する。これにより、分布の時間的シフトに対して耐性を持つ。
SWUCRL2-CWのウィンドウサイズおよび信頼区間幅を適応的に調整する、メタアルゴリズムとしてのBORLを設計する。変動予算の知識が不要である。
合計変動距離を用いて報酬および遷移のドリフトを定量化し、環境の変化速度を制限する変動予算を定義する。
状態遷移分布に特別な構造的性質（例：在庫管理におけるもの）が存在する環境では、探索の負担を軽減し、リグレットバウンドを改善する。
変動予算の平方根に比例する理論的動的リグレットバウンドを確立する。これは、事前の知識がない状況でも、既知の予算性能に一致する。

実験結果

リサーチクエスチョン

RQ1内生的および外生的時間的ドリフトを伴うMDPにおいて、「不確実性の面前に楽観的である」原則を、低動的リグレットを維持できるようにどのように適応させられるか？
RQ2変動予算の知識が事前に与えられない状況でも、既知の予算アルゴリズムと同等の動的リグレットバウンドを達成できるパラメータフリーのアルゴリズムを設計できるか？
RQ3報酬および遷移が変化する非定常強化学習設定において、自信の拡張がリグレット性能に与える影響は何か？
RQ4在庫管理のような構造的環境では、状態遷移ダイナミクスの特別な性質が、ドリフト下での過剰な探索の必要性を軽減できるか？
RQ5内生的および外生的ダイナミクスが、強化学習における理論的に有効な探索戦略の設計にどのように影響を与えるか？

主な発見

変動予算が既知の場合、SWUCRL2-CWアルゴリズムは変動予算の平方根に比例する動的リグレットバウンドを達成する。
変動予算の事前知識が不要なBOLRアルゴリズムは、SWUCRL2-CWと同等の動的リグレットバウンドを達成する。これは、パラメータフリーであることを意味する。
自信の拡張は、分布シフトに対抗する追加の楽観的要因を組み込むことで、変動環境における性能を顕著に向上させる。
数値実験では、SWUCRL2-CWおよびBORLが、時間変動ダイナミクス下でも、既存のアルゴリズムよりも実験的リグレットと安定性の両面で優れていることが示された。
在庫管理のような構造的環境では、状態遷移分布の特別な性質を活用することで、広範な探索の必要性を回避でき、リグレットバウンドが改善される。
内生的および外生的ダイナミクスの相互作用は、標準的な楽観的原則を無効にし、理論的性能を保証するための新しいアルゴリズム的手法（例：自信の拡張）の導入を不可避にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。