QUICK REVIEW

[논문 리뷰] Drifting Reinforcement Learning: The Blessing of (More) Optimism in Face of Endogenous & Exogenous Dynamics

Wang Chi Cheung, David Simchi‐Levi|arXiv (Cornell University)|2019. 06. 07.

Advanced Bandit Algorithms Research참고 문헌 33인용 수 2

한 줄 요약

이 논문은 시간에 따라 변화하는 보상과 전이를 갖는 비정상적인 MDP에서 강화학습을 위한 SWUCRL2-CW 및 BORL 알고리즘을 제안한다. 신뢰도 확장 기법을 통해 내생적 및 외생적 드리프트 상황에서도 낙관적 성향을 유지하며, 알려진 예산 성능에 도달하는 매개변수 자유 동적 리그레트 경계를 달성한다. 이는 변화하는 환경에서 낙관적 탐색의 과제를 해결한다.

ABSTRACT

We consider un-discounted reinforcement learning (RL) in Markov decision processes (MDPs) under temporal drifts, ie, both the reward and state transition distributions are allowed to evolve over time, as long as their respective total variations, quantified by suitable metrics, do not exceed certain variation budgets. This setting captures the endogeneity, exogeneity, uncertainty, and partial feedback in sequential decision-making scenarios, and finds applications in vehicle remarketing and real-time bidding. We first develop the Sliding Window Upper-Confidence bound for Reinforcement Learning with Confidence Widening (SWUCRL2-CW) algorithm, and establish its dynamic regret bound when the variation budgets are known. In addition, we propose the Bandit-over-Reinforcement Learning (BORL) algorithm to adaptively tune the SWUCRL2-CW algorithm to achieve the same dynamic regret bound, but in a parameter-free manner, ie, without knowing the variation budgets. Finally, we conduct numerical experiments to show that our proposed algorithms achieve superior empirical performance compared to existing algorithms. Notably, the interplay between endogeneity and exogeneity presents a unique challenge, absent in existing (stationary and non-stationary) stochastic online learning settings, when we apply the conventional Optimism in Face of Uncertainty principle to design algorithms with provably low dynamic regret for RL in drifting MDPs. We overcome the challenge by a novel confidence widening technique that incorporates additional optimism into our learning algorithms to ensure low dynamic regret bounds. To extend our theoretical findings, we apply our framework to inventory control problems, and demonstrate how one can alternatively leverage special structures on the state transition distributions to bypass the difficulty in exploring time-varying environments.

연구 동기 및 목표

MDP에서 내생적(자체 구동) 및 외생적(외부) 시간적 드리프트가 동시에 존재하는 상황에서 순차적 결정 문제에 대처한다.
보상 및 전이 분포가 시간에 따라 변화하는 비할리프팅된 강화학습에 대해, 제한된 변화 예산 내에서 증명 가능한 효율성 알고리즘을 개발한다.
비정상적인 환경에서 표준적인 '불확실성에 대한 낙관주의'의 한계를 극복하기 위해, 동적 리그레트를 낮게 유지하기 위해 신뢰도 확장을 도입한다.
사전에 변화 예산을 알지 못하더라도 드리프트 수준을 고려하지 않고도 적응할 수 있는 매개변수 자유 알고리즘(BORL)을 설계한다.
재고 제어 및 실시간 입찰, 차량 재판매와 같은 실제 응용 분야를 통해 프레임워크의 실용성을 입증한다.

제안 방법

슬라이딩 윈도우 기반의 UCB 방법인 SWUCRL2-CW 알고리즘을 제안하여, 추정된 MDP 파라미터의 신뢰구간을 유지하고, 시간에 따라 변화하는 동역학 상황에서 낙관적 성향을 반영하기 위해 이를 확장한다.
내생적 및 외생적 드리프트를 명시적으로 고려하는 새로운 신뢰도 확장 기법을 도입하여, 시간에 따른 분포 이동에 대한 강건성을 확보한다.
SWUCRL2-CW의 윈도우 크기 및 신뢰구간 너비를 적응적으로 조정하는 메타알고리즘인 BORL을 설계하며, 변화 예산에 대한 사전 지식이 필요하지 않다.
총 변화도 측정법을 사용하여 보상 및 전이의 드리프트를 정량화하고, 환경 변화의 속도를 제약하는 변화 예산을 정의한다.
특정 상태 전이 분포의 특수한 구조적 성질(예: 재고 제어에서의 성질)을 활용하여 탐색 부담을 줄이고 리그레트 경계를 향상시킨다.
변화 예산의 제곱근 비례로 스케일링되는 이론적 동적 리그레트 경계를 확립하며, 사전 지식이 없을 경우에도 기존의 예산 성능에 도달한다.

실험 결과

연구 질문

RQ1내생적 및 외생적 시간적 드리프트가 모두 존재하는 MDP에서, 불확실성에 대한 낙관주의는 어떻게 동적 리그레트를 낮추는 데 적응시킬 수 있는가?
RQ2드리프트 수준을 사전에 알지 못하더라도, 알려진 예산 알고리즘과 동일한 동적 리그레트 경계를 달성할 수 있는 매개변수 자유 알고리즘을 설계할 수 있는가?
RQ3시간에 따라 변화하는 보상과 전이를 갖는 비정상적인 강화학습 환경에서, 신뢰도 확장은 리그레트 성능에 어떤 영향을 미치는가?
RQ4특정한 전이 역학을 갖는 구조화된 환경(예: 재고 제어)에서는 어떤 경우에 극도로 강력한 탐색이 필요로 하지 않게 되는가?
RQ5내생적 및 외생적 동역학이 함께 작용할 때, 강화학습에서 증명 가능한 효율적 탐색 전략 설계에 어떤 영향을 미치는가?

주요 결과

변화 예산이 알려져 있을 경우, SWUCRL2-CW 알고리즘이 변화 예산의 제곱근 비례로 스케일링되는 동적 리그레트 경계를 달성한다.
BORL 알고리즘은 변화 예산을 사전에 알지 못하더라도, SWUCRL2-CW와 동일한 동적 리그레트 경계를 달성하여 매개변수 자유 성격을 확보한다.
신뢰도 확장은 분포 이동에 대응하기 위해 추가적인 낙관적 성향을 통합함으로써 변화 환경에서 성능을 크게 향상시킨다.
수치 실험 결과, SWUCRL2-CW 및 BORL가 시간에 따라 변화하는 동역학 하에서 기존 알고리즘보다 더 낮은 경험적 리그레트와 높은 안정성을 확보한다.
재고 제어와 같은 구조화된 환경에서는 상태 전이 분포의 특수한 성질을 활용함으로써 광범위한 탐색이 필요로 하지 않게 되어 리그레트 경계가 향상된다.
내생적 및 외생적 동역학의 상호작용은 표준 낙관주의 원칙을 무력화시키며, 증명 가능한 성능을 확보하기 위해 새로운 알고리즘 기법(예: 신뢰도 확장)이 필수적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.