QUICK REVIEW

[논문 리뷰] Delay and Cooperation in Nonstochastic Bandits

Nicolò Cesa‐Bianchi, Claudio Gentile|arXiv (Cornell University)|2016. 02. 15.

Advanced Bandit Algorithms Research참고 문헌 36인용 수 60

한 줄 요약

이 논문은 지연된 피드백을 네트워크화된 통신 그래프로부터 활용하여 회귀를 감소시키는 협동 다중에이전트 밴디트 알고리즘인 Exp3-Coop를 소개한다. 지연 반경 $d$ 내의 에이전트들로부터 정보를 활용함으로써, 알고리즘은 $ \sqrt{(d+1+\frac{K}{N}\alpha_{\leq d})(T\ln K)}$의 회귀 한계를 달성하며, 이는 비협동 밴디트보다 향상되었고, 그래프가 조밀할 경우 전정보 최소화 회귀에 가까워진다.

ABSTRACT

We study networks of communicating learning agents that cooperate to solve a common nonstochastic bandit problem. Agents use an underlying communication network to get messages about actions selected by other agents, and drop messages that took more than $d$ hops to arrive, where $d$ is a delay parameter. We introduce extsc{Exp3-Coop}, a cooperative version of the {\sc Exp3} algorithm and prove that with $K$ actions and $N$ agents the average per-agent regret after $T$ rounds is at most of order $\sqrt{\bigl(d+1 + frac{K}{N}α_{\le d}\bigr)(T\ln K)}$, where $α_{\le d}$ is the independence number of the $d$-th power of the connected communication graph $G$. We then show that for any connected graph, for $d=\sqrt{K}$ the regret bound is $K^{1/4}\sqrt{T}$, strictly better than the minimax regret $\sqrt{KT}$ for noncooperating agents. More informed choices of $d$ lead to bounds which are arbitrarily close to the full information minimax regret $\sqrt{T\ln K}$ when $G$ is dense. When $G$ has sparse components, we show that a variant of extsc{Exp3-Coop}, allowing agents to choose their parameters according to their centrality in $G$, strictly improves the regret. Finally, as a by-product of our analysis, we provide the first characterization of the minimax regret for bandit learning with delay.

연구 동기 및 목표

지연된 피드백을 가진 네트워크 기반의 에이전트들이 직면하는 비확률적 밴디트 문제에서의 협동 학습을 모델링하고 분석한다.
통신 지연과 네트워크 구조가 다중에이전트 밴디트 환경에서 집단적 회귀에 미치는 영향을 이해한다.
이웃 에이전트들로부터 온 지연된 피드백을 활용하여 회귀 성능을 향상시키는 협동 알고리즘을 설계한다.
특히 단일 에이전트 케이스에서 지연이 있는 상황에서의 밴디트 학습에 대한 최소최대 회귀를 특성화한다.

제안 방법

비확률적 밴디트를 위한 분산형, 협동형 Exp3 알고리즘의 변형인 Exp3-Coop를 제안한다.
지연된 피드백을 통신 그래프 내의 최단경로 거리와 동일한 지연 시간으로 모델링한다.
지난 $d$ 단계 이내에 거리 $d$ 이내의 에이전트들이 수행한 행동들로부터 온 피드백을 통합한 중요도 가중 손실 추정치를 사용한다.
통신 그래프 $G$의 $d$제곱을 정의하여 효과적인 정보 도달 범위를 캡처하고, 그 독립수 $\alpha_{\leq d}$를 회귀 한계에 활용한다.
에이전트 중심성에 기반한 파rameter 조정을 통해 희박한 네트워크에서 성능을 향상시키는 Exp3-Coop의 변형을 도입한다.
Exp3 분포의 $d$단계 동안의 변동성을 표준 Exp3 분석과 연결하여, 지연 하에 전략의 안정성을 정량화함으로써 회귀를 분석한다.

실험 결과

연구 질문

RQ1네트워크화된 에이전트 집단으로부터 온 지연된 피드백은 비확률적 밴디트 문제에서 집단적 회귀에 어떻게 영향을 미치는가?
RQ2지연된 정보를 가진 에이전트들 간의 협동은 비협동 최소최대 회귀율 $ \sqrt{KT}$ 이하의 회귀를 감소시킬 수 있는가?
RQ3평균 복리 회귀를 최소화하기 위해 지연 $d$와 네트워크 구조 사이의 최적의 트레이드오프는 무엇인가?
RQ4통신 그래프의 $d$제곱의 독립수 $\alpha_{\leq d}$는 어떻게 회귀 한계에 영향을 미치는가?
RQ5에이전트 중심성에 기반한 적응형 파rameter 조정은 희박한 통신 네트워크에서 회귀를 향상시킬 수 있는가?

주요 결과

Exp3-Coop의 평균 에이전트별 회귀는 $\sqrt{(d+1+\frac{K}{N}\alpha_{\leq d})(T\ln K)}$로 유계이며, 여기서 $\alpha_{\leq d}$는 통신 그래프의 $d$제곱의 독립수이다.
지연 $d = \sqrt{K}$일 경우, 회귀 한계는 $K^{1/4}\sqrt{T\ln K} + \sqrt{K}\ln T$로 변형되며, 이는 비협동적 경우의 $ \sqrt{KT}$보다 엄밀히 우수하다.
조밀한 그래프에서는 적절한 $d$를 선택함으로써 회귀 한계를 전정보 최소최대 회귀 $\sqrt{T\ln K}$에 임의로 가까이 만들 수 있다.
희박한 네트워크에서는 중심성 기반 파rameter 조정을 통한 Exp3-Coop의 변형이 표준 Exp3-Coop보다 엄밀히 더 낮은 회귀를 달성한다.
분석을 통해 지연이 있는 비확률적 밴디트에 대한 최소최대 회귀를 처음으로 특성화하였으며, 단일 에이전트의 경우 $\sqrt{(d+K)T}$로 표현된다.
Exp3-Coop의 단일 에이전트 버전은 Neu 등이 이전에 제안한 $ \sqrt{(d+1)KT}$의 경계를 초월하여 최적의 $\sqrt{(d+K)T}$ 의존성에 도달한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.