QUICK REVIEW

[논문 리뷰] Swap Regret Minimization Through Response-Based Approachability

Ioannis Anagnostides, Gabriele Farina|arXiv (Cornell University)|2026. 02. 05.

Advanced Bandit Algorithms Research인용 수 0

한 줄 요약

일반 볼록 집합에 대한 선형 스왑 후회를 최소화하기 위한 응답 기반 접근성 프레이워크를 이용한 계산적으로 효율적인 알고리즘을 도입하여 O(d√T) 후회와 하한 일치를 달성하며, 또한 프로필 스왑 후회도 최소화한다.

ABSTRACT

We consider the problem of minimizing different notions of swap regret in online optimization. These forms of regret are tightly connected to correlated equilibrium concepts in games, and have been more recently shown to guarantee non-manipulability against strategic adversaries. The only computationally efficient algorithm for minimizing linear swap regret over a general convex set in $\mathbb{R}^d$ was developed recently by Daskalakis, Farina, Fishelson, Pipis, and Schneider (STOC '25). However, it incurs a highly suboptimal regret bound of $Ω(d^4 \sqrt{T})$ and also relies on computationally intensive calls to the ellipsoid algorithm at each iteration. In this paper, we develop a significantly simpler, computationally efficient algorithm that guarantees $O(d^{3/2} \sqrt{T})$ linear swap regret for a general convex set and $O(d \sqrt{T})$ when the set is centrally symmetric. Our approach leverages the powerful response-based approachability framework of Bernstein and Shimkin (JMLR '15) -- previously overlooked in the line of work on swap regret minimization -- combined with geometric preconditioning via the John ellipsoid. Our algorithm simultaneously minimizes profile swap regret, which was recently shown to guarantee non-manipulability. Moreover, we establish a matching information-theoretic lower bound: any learner must incur in expectation $Ω(d \sqrt{T})$ linear swap regret for large enough $T$, even when the set is centrally symmetric. This also shows that the classic algorithm of Gordon, Greenwald, and Marks (ICML '08) is existentially optimal for minimizing linear swap regret, although it is computationally inefficient. Finally, we extend our approach to minimize regret with respect to the set of swap deviations with polynomial dimension, unifying and strengthening recent results in equilibrium computation and online learning.

연구 동기 및 목표

온라인 최적화에서 더 강한 후회 개념(스왑 후회)의 필요성과 그것의 동향을 상호 연관된 동시거래 균형 및 비조작성과 연결한다.
일반 볼록 집합에서 선형 스왑 후회를 최소화하기 위한 계산적으로 효율적인 알고리즘을 개발한다.
알고리즘이 프로필 스왑 후회도 최소화하여 비조작성을 보장한다.
정보 이론적 하한을 일치시키고 다항 차원으로의 스왑 편차 확장에 대해 논의한다.

제안 방법

최상의 반응, 볼록 궤적 K, 대상 집합 S를 사용하여 선형 스왑 후회를 접근성 문제로 감소시킨다.
Bernstein와 Shimkin(2015)의 응답 기반 접근성 알고 algorithm을 프리처리 단계로 전략 집합을 John's 위치에 배치한다.
프리컨디셔닝(John의 위치)을 도입하여 엔도모르피즘의 Frobenius 노름과 접근성 공간을 한정한다.
프리컨디셔닝 하에서 선형 스왑 후회에 대해 O(d√T) 경계 증명(알고리즘 2: Preconditioned response-based approachability).
다항 차원으로 확장된 스왑 편차에 대해 혼합 전략을 사용하여 프레임워크를 확장한다(알고리즘 3).
최악의 경우 Ω(d√T) 선형 스왑 후회가 불가피하다는 매칭 하한을 보인다(정리 5.1).

실험 결과

연구 질문

RQ1일반 심플렉스의 경계를 넘어 일반 볼록 집합에서 선형 스왑 후회를 효율적으로 최소화할 수 있는가?
RQ2프리컨디셔닝에 대해 달성 가능한 엄격한 후회 속도는 무엇이며 정보 이론적으로 최적한가?
RQ3다항 차원으로의 스왑 편차 확장에서 계산 효율성을 유지하며 접근법을 확장할 수 있는가?
RQ4선형 및 프로필 스왑 후회 최소화가 전략적 적대자에 대한 비조작성에 어떻게 연결되는가?
RQ5기존 알고리즘들(예: 타원체 기반 알고리즘)의 한계는 무엇이며 제안된 접근법은 이에 비해 어떤 장점이 있는가?

주요 결과

일반 볼록 집합에 대해John의 프리컨디셔닝 후 LinearSwapRegT = O(d√T)이라는 효율적 알고리즘을 달성한다.
큰 T에 대해 Ω(d√T)라는 정보 이론적 매칭 하한이 존재하여 중심 대칭 P에 대해서도 최적에 가깝고 상수만 다를 뿐이다.
고전적인 Gordon 등 알고리즘은 선형 스왑 후회에 대해 정보 이론적으로 최적이지만 계산적으로 비효율적이며, 새로운 방법이 실용적 효율을 크게 향상시킨다.
본 접근은 또한 프로필 스왑 후회를 최소화하여 적응적 적대자에 대한 비조작성에 기여한다.
다항 차원으로의 스왑 편차 확장에 적용 가능하여 기존 연구 대비 PolyDimSwapRegT 경계가 개선된다.
하한 구성은 P = B1 × B∞인 곱집합을 사용해 적대적 손실 하에서 불가피한 후회 증가를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.