QUICK REVIEW

[논문 리뷰] Linear Stochastic Bandits Under Safety Constraints

Sanae Amani, Mahnoosh Alizadeh|arXiv (Cornell University)|2019. 01. 01.

Machine Learning and Algorithms인용 수 25

한 줄 요약

이 논문은 알려지지 않은 매개변수 벡터에 선형적으로 의존하는 안전성 제약 조건이 있는 선형 스토하스틱 밴디트 문제를 위한 UCB 기반 알고리즘인 Safe-LUCB를 제안한다. 알고리즘은 두 단계로 구성된다: 먼저 안전 행동 집합을 추정하기 위한 순수 탐색 단계를 거치고, 이후 안전한 탐색-이용 단계로 넘어가며, 이 단계에서는 안전성을 고려하면서도 위험도를 최소화한다. 이로써 최적 행동이 안전 집합 내에서 어느 위치에 있는지에 따라 결정되는 문제 의존적 위험도 경계를 달성한다.

ABSTRACT

Bandit algorithms have various application in safety-critical systems, where it is important to respect the system constraints that rely on the bandit's unknown parameters at every round. In this paper, we formulate a linear stochastic multi-armed bandit problem with safety constraints that depend (linearly) on an unknown parameter vector. As such, the learner is unable to identify all safe actions and must act conservatively in ensuring that her actions satisfy the safety constraint at all rounds (at least with high probability). For these bandits, we propose a new UCB-based algorithm called Safe-LUCB, which includes necessary modifications to respect safety constraints. The algorithm has two phases. During the pure exploration phase the learner chooses her actions at random from a restricted set of safe actions with the goal of learning a good approximation of the entire unknown safe set. Once this goal is achieved, the algorithm begins a safe exploration-exploitation phase where the learner gradually expands their estimate of the set of safe actions while controlling the growth of regret. We provide a general regret bound for the algorithm, as well as a problem dependent bound that is connected to the location of the optimal action within the safe set. We then propose a modified heuristic that exploits our problem dependent analysis to improve the regret.

연구 동기 및 목표

모르는 매개변수에 의존하는 제약 조건을 만족해야 하는 안전성에 민감한 응용 분야를 다루기 위해.
초기에는 안전 집합이 알려져 있지 않더라도, 모든 라운드에서 안전성을 보장하는 밴디트 알고리즘을 개발하기 위해.
점차적으로 안전 행동의 추정 집합을 학습하고 확장하면서 위험도를 최소화하기 위해.
최적 행동이 안전 집합 내에서 어느 위치에 있는지에 따라 달라지는 이론적 위험도 경계를 제공하기 위해.

제안 방법

알고리즘은 두 단계 접근법을 사용한다: 먼저 제한된 행동 집합에서의 순수 탐색을 통해 안전 집합을 추정한다.
두 번째 단계에서는 안전 집합의 양호한 근사치를 확보한 후 안전한 탐색-이용을 시작한다.
알려지지 않은 매개변수 벡터에 대한 신뢰 구간을 유지하여 안전성을 고확률로 보장한다.
추정된 안전 집합 내 행동을 우선시하는 수정된 UCB 스타일 선택 규칙을 적용한다.
선형 제약 조건에 대한 통계적 신뢰 구간을 사용하여 안전 집합 추정을 반복적으로 개선한다.
문제 의존적 분석에 기반한 히우리스틱을 도입하여 위험도를 추가로 감소시킨다.

실험 결과

연구 질문

RQ1알려지지 않은 매개변수에 의존하는 안전 집합이 존재할 때, 선형 스토하스틱 밴디트 알고리즘이 매 라운드에서 안전성을 보장할 수 있는 방법은 무엇인가?
RQ2이러한 제약 조건이 있는 환경에서, 안전성을 위한 탐색와 위험도 최소화 사이의 최적의 트레이드오프는 무엇인가?
RQ3최적 행동이 안전 집합 내에서의 위치가 달성 가능한 위험도에 어떤 영향을 미치는가?
RQ4순수 탐색과 안전한 이용을 조합한 두 단계 접근법이 안전 제약 조건 하에서 비선형 위험도를 달성할 수 있는가?

주요 결과

Safe-LUCB 알고리즘은 안전 제약 조건 하에서도 유효한 일반적인 위험도 경계를 달성한다.
최적 행동이 안전 집합에 비해 기하학적으로 어느 위치에 있는지에 따라 달라지는 문제 의존적 위험도 경계가 유도되었다.
학습 과정 전반에 걸쳐 취한 모든 행동이 고확률로 안전함을 보장한다.
문제 의존적 분석에 기반한 제안된 히우리스틱은 위험도 성능을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.