QUICK REVIEW

[논문 리뷰] Online Bandit Learning against an Adaptive Adversary: from Regret to Policy Regret

Raman Arora, Ofer Dekel|arXiv (Cornell University)|2012. 06. 27.

Advanced Bandit Algorithms Research참고 문헌 25인용 수 87

한 줄 요약

이 논문은 적응형 적대자(적대자가 학습자의 행동에 반응하는 경우)에 대응하는 온라인 밴딧 학습에서 표준 회귀(regret)보다 더 의미 있는 성능 측정 기준으로 정책 회귀(policy regret)를 도입한다. 이는 기억력이 무한한 적대자에 대해 정책 회귀가 비선형일 수 없음을 증명하지만, 기억력이 유한한 경우에 대해 임의의 비선형 회귀 밴딧 알고리즘을 비선형 정책 회귀를 갖는 알고리즘으로 변환하는 일반적인 변환 기법을 제시하며, 이는 스위칭, 내부, 스왑 회귀로까지 확장된다.

ABSTRACT

Online learning algorithms are designed to learn even when their input is generated by an adversary. The widely-accepted formal definition of an online algorithm's ability to learn is the game-theoretic notion of regret. We argue that the standard definition of regret becomes inadequate if the adversary is allowed to adapt to the online algorithm's actions. We define the alternative notion of policy regret, which attempts to provide a more meaningful way to measure an online algorithm's performance against adaptive adversaries. Focusing on the online bandit setting, we show that no bandit algorithm can guarantee a sublinear policy regret against an adaptive adversary with unbounded memory. On the other hand, if the adversary's memory is bounded, we present a general technique that converts any bandit algorithm with a sublinear regret bound into an algorithm with a sublinear policy regret bound. We extend this result to other variants of regret, such as switching regret, internal regret, and swap regret.

연구 동기 및 목표

적대자가 학습자의 행동에 반응하는 상황에서 표준 회귀가 성능 측정에 부적절하다는 문제를 다루기 위해.
적응형 적대자에 대응하는 학습을 더 잘 반영하는 새로운 성능 지표인 정책 회귀를 체계화하기 위해.
다양한 적대자 기억력 제약 조건 하에서 온라인 밴딧 설정에서 비선형 정책 회귀를 달성할 수 있는지 조사하기 위해.
적대자의 기억력이 유한할 경우, 임의의 비선형 회귀 밴딧 알고리즘을 비선형 정책 회귀를 갖는 알고리즘으로 변환하는 일반적인 방법을 개발하기 위해.
스위칭 회귀, 내부 회귀, 스왑 회귀와 같은 다른 회귀 유형으로 프레임워크를 확장하기 위해.

제안 방법

학습자가 시간이 지남에 따라 누적 손실을 최선의 고정 정책과 비교하는 정책 회귀를 새로운 성능 측정 기준으로 제안한다.
표준 회귀가 적응형 환경에서 한계를 보이는 것을 입증하기 위해, 표준 회귀는 비선형이지만 정책 회귀는 선형이 되는 반례를 구성한다.
기억력이 무한한 적응형 적대자에 대해 어떤 밴딧 알고리즘도 비선형 정책 회귀를 달성할 수 없다는 것을 증명한다.
적대자의 기억력이 유한할 경우, 임의의 비선형 회귀를 갖는 밴딧 알고리즘을 비선형 정책 회귀를 갖는 알고리즘으로 변환하는 변환 기법을 도입한다.
이 변환 기법을 적용하여 기억력이 유한한 조건 하에서 스위칭 회귀, 내부 회귀, 스왑 회귀에 대해 비선형 정책 회귀의 상한을 유도한다.
게임 이론적 분석과 회귀 분해를 활용하여 기억력 제약 조건 하에서 이론적 보장을 확립한다.

실험 결과

연구 질문

RQ1적대자가 학습자의 행동에 반응하는 온라인 밴딧 학습에서 표준 회귀가 성능 측정에 충분한가?
RQ2기억력이 무한한 적응형 적대자에 대응하는 온라인 밴딧 설정에서 비선형 정책 회귀를 달성하는 것은 가능한가?
RQ3적대자의 기억력에 어떤 조건이 존재하면 비선형 정책 회귀를 갖는 밴딧 알고리즘을 설계할 수 있는가?
RQ4기억력이 유한한 적대자에 대해 임의의 비선형 회귀 밴딧 알고리즘을 비선형 정책 회귀를 갖는 알고리즘으로 변환할 수 있는 일반적인 변환 기법을 만들 수 있는가?
RQ5기억력 제약 조건 하에서 정책 회귀 상한은 스위칭, 내부, 스왑 회귀와 같은 다른 회귀 유형과 어떻게 관련이 있는가?

주요 결과

적대자가 학습자의 행동에 반응하는 상황에서 표준 회귀는 온라인 밴딧 알고리즘의 성능 평가에 부적절하다.
기억력이 무한한 적응형 적대자에 대해 어떤 밴딧 알고리즘도 비선형 정책 회귀를 달성할 수 없다.
기억력이 유한한 조건에서는 임의의 비선형 회귀를 갖는 밴딧 알고리즘을 비선형 정책 회귀를 갖는 알고리즘으로 변환하는 일반적인 변환이 가능하다.
이 변환 기법은 기억력이 유한한 조건 하에서 스위칭 회귀, 내부 회귀, 스왑 회귀에 대해 비선형 상한을 달성하는 데까지 확장된다.
적응형 환경에서는 표준 회귀보다 정책 회귀가 더 의미 있는 성능 측정 기준이다.
결과적으로 이 연구는 적응형 적대자에 대응하는 온라인 학습에서의 기본 한계와 구현 가능한 해결책을 확립한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.