QUICK REVIEW

[논문 리뷰] Vector Optimization with Stochastic Bandit Feedback

Çağın Ararat, Cem Tekin|arXiv (Cornell University)|2021. 10. 23.

Advanced Bandit Algorithms Research인용 수 1

한 줄 요약

이 논문은 선형 순서 코너 C를 통해 정의된 선호도를 가진 확률적 밴딧 피드백을 통한 벡터 최적화를 제안한다. (ϵ, δ)-PAC 파레토 집합 식별의 샘플 복잡도를 새로운 코어 기반 측도인 순서 복잡도(ordering complexity)를 통해 특성화하며, 악성 경우 샘플 복잡도가 이 복잡도의 제곱에 비례함을 증명하고, 단순 제거 알고리즘의 성능이 이 하한에 거의 근접함을 보여준다.

ABSTRACT

We introduce vector optimization problems with stochastic bandit feedback, in which preferences among designs are encoded by a polyhedral ordering cone $C$. Our setup generalizes the best arm identification problem to vector-valued rewards by extending the concept of Pareto set beyond multi-objective optimization. We characterize the sample complexity of ($\epsilon,\delta$)-PAC Pareto set identification by defining a new cone-dependent notion of complexity, called the ordering complexity. In particular, we provide gap-dependent and worst-case lower bounds on the sample complexity and show that, in the worst-case, the sample complexity scales with the square of ordering complexity. Furthermore, we investigate the sample complexity of the na\"ive elimination algorithm and prove that it nearly matches the worst-case sample complexity. Finally, we run experiments to verify our theoretical results and illustrate how $C$ and sampling budget affect the Pareto set, the returned ($\epsilon,\delta$)-PAC Pareto set, and the success of identification.

연구 동기 및 목표

평균 보상이 알려져 있지 않고 오직 노이즈 있는 관측치만 제공되는 부분 순서에 기반한 다변수 최적화 문제를 다루기 위해.
다목적 최적화를 넘어서 파레토 최적성 기반으로 다변수 보상으로 일반화된 최상의 암호 식별 문제를 다루기 위해.
(ϵ, δ)-PAC 파레토 집합 식별의 샘플 복잡도를 새로운 코어 기반 측도인 순서 복잡도(ordering complexity)로 특성화하기 위해.
단순 제거 알고리즘의 성능을 분석하고, 이가 악성 경우 샘플 복잡도 하한에 거의 근접함을 보여주기 위해.
샘플 예산과 코어 C의 영향을 실험을 통해 검증하여 이론적 결과를 검증하기 위해.

제안 방법

각 설계가 D차원 평균 벡터 µi의 노이즈 있는 관측치를 제공하는 확률적 밴딧 프레임워크를 제안한다.
다목적 설정에서 성분 기반 지배를 일반화하기 위해 다각형 순서 코어 C ⊆ RD를 사용하여 파레토 최적성을 정의한다.
파레토 최적과 비파레토 최적 설계를 구분하는 데 어려움을 측정하는 코어 기반 측도인 '순서 복잡도'를 도입한다.
샘플 복잡도에 대한 갭 기반 및 악성 경우 하한을 설정하며, 악성 경우 복잡도가 순서 복잡도의 제곱에 비례함을 보여준다.
단순 제거 알고리즘의 성능을 분석하고, 그 샘플 복잡도가 악성 경우 하한에 거의 근접함을 증명한다.
집중 부등식과 코어의 기하적 성질을 사용하여 쌍별 차이 ∆ij = µj − µi의 추정 오차에 대한 고확률 경계를 유도한다.

실험 결과

연구 질문

RQ1순서 코어 C의 구조가 확률적 밴딧 피드백을 통한 다변수 최적화에서 (ϵ, δ)-PAC 파레토 집합 식별의 샘플 복잡도에 어떻게 영향을 미치는가?
RQ2기본적인 악성 경우 샘플 복잡도는 무엇이며, 이는 코어 C의 기하학적 성질에 따라 어떻게 변화하는가?
RQ3단순 제거 알고리즘이 이 다변수 밴딧 환경에서 거의 최적의 샘플 복잡도를 달성할 수 있는가?
RQ4코어 각도와 샘플 예산은 실질적으로 파레토 집합 식별의 성공률과 정확도에 어떤 영향을 미치는가?
RQ5파레토와 비파레토 설계 간의 갭은 필요한 샘플 수를 결정하는 데 어떤 역할을 하는가?

주요 결과

(ϵ, δ)-PAC 파레토 집합 식별의 악성 경우 샘플 복잡도는 코어 C의 순서 복잡도의 제곱에 비례한다.
단순 제거 알고리즘은 악성 경우 샘플 복잡도 하한에 거의 근접하여, 그 near-optimality가 입증된다.
모든 (ϵ, δ)에 대해 상수 c가 존재하여, 각 설계에 대해 L = ⌈(4β²c²σ²/ϵ²) log(4D/δ)⌉개의 샘플을 설정하면, ||ˆ∆ij − ∆ij||₂ ≤ ϵθij일 확률이 1−δ 이상이 된다.
D = 1일 경우, 단순 제거 알고리즘의 샘플 복잡도는 Even-Dar 등(2006)에서 알려진 결과와 일치하여, 프레임워크의 일관성을 검증한다.
실험 결과, 성공률은 샘플 예산 증가에 따라 증가하고, 코어 각도에 민감함을 보이며, 저예산에서 넓은 코어(예: 135°)일 경우 성공률이 급격히 감소함을 확인함.
반환된 집합에서 임의의 참조 집합에 대한 가짜 양성률(P P∗)과 가짜 음성률(P∗ P)은 예산 증가에 따라 감소하며, PMθ는 10⁵개의 샘플에서 0으로 감소함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.