[논문 리뷰] Rising Multi-Armed Bandits with Known Horizons
본 논문은 horizon-aware 알고리즘 CURE-UCB를 알려진 시한을 가진 Rising Multi-Armed Bandits(RMAB)에 대해 제시하고, 이론적 regret 보장을 제공하며, horizon-무지 baselines에 비해 우수함을 보여주는 광범위한 실증 검증을 제공한다.
The Rising Multi-Armed Bandit (RMAB) framework models environments where expected rewards of arms increase with plays, which models practical scenarios where performance of each option improves with the repeated usage, such as in robotics and hyperparameter tuning. For instance, in hyperparameter tuning, the validation accuracy of a model configuration (arm) typically increases with each training epoch. A defining characteristic of RMAB is em horizon-dependent optimality: unlike standard settings, the optimal strategy here shifts dramatically depending on the available budget $T$. This implies that knowledge of $T$ yields significantly greater utility in RMAB, empowering the learner to align its decision-making with this shifting optimality. However, the horizon-aware setting remains underexplored. To address this, we propose a novel CUmulative Reward Estimation UCB (CURE-UCB) that explicitly integrates the horizon. We provide a rigorous analysis establishing a new regret upper bound and prove that our method strictly outperforms horizon-agnostic strategies in structured environments like ``linear-then-flat'' instances. Extensive experiments demonstrate its significant superiority over baselines.
연구 동기 및 목표
- Finite-horizon RMAB 설정에서 시한 의존적 최적성 강조.
- 알려진 시한을 활용하여 누적 잠재 이득을 추정하는 CURE-UCB 알고리즘을 제안하고 형식화합니다.
- 구조화된 환경에서의 시한-무지 방법보다 우세하다는 것을 보이고 일반적인 concave 상승 환경에 대한 regret 경계(상한)를 확립합니다.
- 합성 실험과 실제 온라인 모델 선택 과제(IMDB)을 통해 접근 방식을 검증합니다.
제안 방법
- concave 상승 보상 함수와 시한 의존적 최적 정책(누적 보상의 단일 팔 재생)을 정의합니다.
- CURE-UCB를 도입하여 남은 시한 동안의 누적 보상을 추정하는 시한 적응 인덱스 B_i(t)를 구축합니다.
- B_i(t)를 최근 평균, 추정된 미래 이득, 그리고 슬라이딩 윈도우 h_i를 갖는 탐사 보너스로 분해합니다.
- 각 팔을 두 번 샘플링한 후 초기화를 수행하고, 그 다음 B_i(t)의 최댓값을 가지는 팔을 반복적으로 선택합니다.
- 이론적 결과를 제시합니다: 선형-그다음-평평 (LTF) 설정에서의 엄격한 우위(정리 5.2)와 concave 상승 환경에 대한 일반적 regret 상한(정리 5.4).
- horizon-무지(R-ed-UCB) 및 비정상 Baselines과의 비교를 통해 시한 인식의 이점을 보여줍니다.
실험 결과
연구 질문
- RQ1RMAB에서 팔 당 pulls의 최적 순서에 대해 명시적 시한 지식이 어떤 영향을 미치는가?
- RQ2시한 인식 추정기가 구조화된 및 일반 상승 보상 설정 전반에서 시한-무지 방법을 능가할 수 있는가?
- RQ3RMAB에서 시한 인식 전략의 이론적 보장(지배성 및 regret bound)은 무엇인가?
- RQ4합성(LTF 및 concave) 및 실제 작업(IMDB)에서의 실험적 결과가 시한 인식의 이점을 뒷받침하는가?
주요 결과
- CURE-UCB는 LTF 및 concave 설정에서 기준선들보다 모든 시한에서 누적 regret를 지속적으로 감소시키는 경향을 보인다.
- 구조화된 LTF 환경에서 CURE-UCB는 horizon-무지 R-ed-UCB를 엄격하게 지배한다(정리 5.2).
- 이 방법은 concave 상승 환경에 대한 일반적인 regret 상한을 제공한다(정리 5.4).
- 합성 벤치마크와 온라인 모델 선택 과제(IMDB)에서 CURE-UCB가 최고 또는 거의 최고 순위를 차지하는 실증 결과가 나타난다.
- 시한 적응 인덱스 B_i(t)는 성장에 투자할 시점과 즉각적 이득을 exploit할 시점을 효과적으로 식별한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.