QUICK REVIEW

[논문 리뷰] Bandits with concave rewards and convex knapsacks

Shipra Agrawal, Nikhil R. Devanur|arXiv (Cornell University)|2014. 02. 24.

Advanced Bandit Algorithms Research참고 문헌 17인용 수 24

한 줄 요약

이 논문은 시간에 따라 임의의 볼록 보상과 볼록 자원 제약를 허용하는 다익명 밴딧의 일반화인 볼록 컨스테이너를 가진 밴딧(Bandits with Convex Knapsacks and Concave Rewards, BwCR)을 제안한다. 자연스러운 UCB 알고리즘 확장이 근사 최적의 리그레트 경계를 달성함을 보이며, 기존의 밴딧과 컨테이너(Bandits with Knapsacks, BwK)의 최상위 성능 결과를 따라잡는다. 또한 프랭크-울프와 블랙웰 접근 가능성과의 연결을 통해 계산적으로 효율적인 알고리즘을 제공한다.

ABSTRACT

In this paper, we consider a very general model for exploration-exploitation tradeoff which allows arbitrary concave rewards and convex constraints on the decisions across time, in addition to the customary limitation on the time horizon. This model subsumes the classic multi-armed bandit (MAB) model, and the Bandits with Knapsacks (BwK) model of Badanidiyuru et al.[2013]. We also consider an extension of this model to allow linear contexts, similar to the linear contextual extension of the MAB model. We demonstrate that a natural and simple extension of the UCB family of algorithms for MAB provides a polynomial time algorithm that has near-optimal regret guarantees for this substantially more general model, and matches the bounds provided by Badanidiyuru et al.[2013] for the special case of BwK, which is quite surprising. We also provide computationally more efficient algorithms by establishing interesting connections between this problem and other well studied problems/algorithms such as the Blackwell approachability problem, online convex optimization, and the Frank-Wolfe technique for convex optimization. We give examples of several concrete applications, where this more general model of bandits allows for richer and/or more efficient formulations of the problem.

연구 동기 및 목표

기본적인 다익명 밴딧과 컨테이너가 있는 밴딧(Bandits with Knapsacks, BwK) 모델을 일반화하여 임의의 볼록 보상과 자원 소비에 대한 볼록 제약 조건을 허용한다.
이 일반적인 설정에서 UCB 알고리즘 가족의 단순한 확장이 근사 최적의 리그레트를 달성할 수 있음을 보여주며, 이는 BwK 문제에 대해 이전의 최상위 성능 결과를 따라잡는다.
기존 문제들인 온라인 볼록 최적화, 프랭크-울프, 블랙웰 접근 가능성 등과의 연결을 통해 계산적으로 효율적인 알고리즘을 개발한다.
제안된 프레임워크가 광고, 커뮤니티 기반 작업, 네트워크 라우팅 등 응용 분야에서 더 풍부하고 효율적인 모델링을 가능하게 함을 보여준다.

제안 방법

결정이 벡터 결과를 생성하는 밴딧 모델을 제안하며, 평균 벡터가 볼록 집합 안에 있도록 하고 볼록 목적 함수를 최대화하는 것이 목표이다.
보상 및 제약 벡터에 대한 신뢰 구간을 통합하여 이중 최적화 프레임워크를 사용해 UCB 알고리즘을 확장한다.
온라인 볼록 최적화 및 볼록 분석 기법을 사용하여 리그레트 경계를 유도하며, 문제에 의존적인 최적성(optimality)을 보여준다.
내부 최적화를 효율적으로 해결하기 위해 프랭크-울프 방법에 기반한 원천 알고리즘을 개발한다.
문제를 블랙웰 접근 가능성으로 감소시켜 온라인 볼록 최적화를 통해 해결하는 이중 알고리즘을 개발한다.
원천과 이중 접근 방식을 결합하여 각 단계에서 단체형 단체에 대한 선형 프로그래밍을 추가 선형 제약 조건과 함께 해결하는 계산적으로 효율적인 알고리즘을 도출한다.

실험 결과

연구 질문

RQ1볼록 보상과 볼록 제약 조건이 있는 일반적인 밴딧 모델에서, UCB 알고리즘의 단순한 확장이 근사 최적의 리그레트를 달성할 수 있는가?
RQ2확장된 UCB 알고리즘의 리그레트 성능은 기존의 밴딧과 컨테이너(Bandits with Knapsacks, BwK)에 대한 최상위 성능 알고리즘과 비교해 어떻게 되는가?
RQ3BwCR과 온라인 볼록 최적화 및 프랭크-울프 방법과 같은 잘 알려진 문제들 사이에 어떤 연결 고리가 존재하는가?
RQ4각 시간 단계에서 복잡한 볼록 프로그래밍을 해결하지 않고도 효율적이고 다항 시간 내에 작동하는 알고리즘을 BwCR에 대해 설계할 수 있는가?
RQ5BwCR 프레임워크는 기존 모델과 비교해 어떤 응용 분야에서 더 표현력 있거나 효율적인 모델링을 가능하게 하는가?

주요 결과

확장된 UCB 알고리즘은 BwCR 모델의 일반성에도 불구하고, Badanidiyuru 등이 BwK 문제에 대해 확립한 문제에 의존적인 하한 및 상한 경계와 일치하는 리그레트 경계를 달성한다.
프랭크-울프에 기반한 원천 알고리즘은 각 단계에서 선형 최적화 서브프로브레임을 해결함으로써 복잡한 볼록 최적화를 피함으로써 계산적으로 효율적이다.
블랙웰 접근 가능성에 기반한 이중 알고리즘은 BwK 특수 케이스에서는 Badanidiyuru 등이 제안한 PD-BwK 알고리즘과 동일한 것으로 밝혀져 정확성이 검증된다.
효율적인 알고리즘(알고리즘 6)은 각 단계에서 단체형 단체에 대해 하나의 추가 선형 제약 조건이 있는 선형 프로그래밍을 해결하면 되므로, 원래의 볼록 프로그래밍을 해결하는 것보다 훨씬 효율적이다.
어떤 설정에서는 어떤 액션도 취하지 않는 것이 허용되는 경우, 알고리즘이 게으른 분수 배낭 규칙(fractional knapsack rule)으로 축소되어, 클릭당 지불 광고와 같은 응용 분야에서 실용적이다.
이 프레임워크는 기존의 고전적 MAB와 BwK를 모두 포함하며, 센서 네트워크, 커뮤니티 기반 작업, 네트워크 라우팅 등의 분야에서 더 풍부한 모델링을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.