QUICK REVIEW

[논문 리뷰] Learning to Recommend in Unknown Games

Arwa Alanqary, Zakaria Baba|arXiv (Cornell University)|2026. 02. 19.

Advanced Bandit Algorithms Research인용 수 0

한 줄 요약

본 논문은 모더레이터의 권고를 통한 피드백 하에서 다중 에이전트 게임에서 알려지지 않은 효용을 학습하는 것을 베스트 응답과 퀀탈 응답 피드백 아래 분석하고, QR 하에서 양의 아핀 동형변환까지 학습 가능함을 증명하며 BR에서는 학습 불가능함을 보이고, 또한 낮은 후회율의 온라인 권고를 제시한다.

ABSTRACT

We study preference learning through recommendations in multi-agent game settings, where a moderator repeatedly interacts with agents whose utility functions are unknown. In each round, the moderator issues action recommendations and observes whether agents follow or deviate from them. We consider two canonical behavioral feedback models-best response and quantal response-and study how the information revealed by each model affects the learnability of agents' utilities. We show that under quantal-response feedback the game is learnable, up to a positive affine equivalence class, with logarithmic sample complexity in the desired precision, whereas best-response feedback can only identify a larger set of agents' utilities. We give a complete geometric characterization of this set. Moreover, we introduce a regret notion based on agents' incentives to deviate from recommendations and design an online algorithm with low regret under both feedback models, with bounds scaling linearly in the game dimension and logarithmically in time. Our results lay a theoretical foundation for AI recommendation systems in strategic multi-agent environments, where recommendation compliances are shaped by strategic interaction.

연구 동기 및 목표

유틸리티가 알려지지 않고 오직 행동 피드백만 관찰되는 모더레이터-에이전트 상호작용을 형식화한다.
두 가지 행동 모델인 베스트 응답(BR)과 퀀탈 응답(QR) 하에서 효용의 학습 가능성을 특성화한다.
두 피드백 모델 모두에서 인센티브-탈피에 대한 낮은 후회를 달성하는 효율적인 온라인 알고리즘을 제공한다.

제안 방법

유틸리티가 알려지지 않은 유한 정상형 게임으로 게임을 모델링하고, 모더레이터가 행동 프로파일에 대한 확률 분포를 발행한다.
관찰된 행동으로부터 피드백을 정의하기 위해 두 가지 에이전트 선택 모델(BR 및 QR)을 사용한다.
에이전트별 양의 아핀 변환까지의 학습 가능성을 정의하고, BR 하에서는 다면체 노말 팬(polyhedral normal fans)에 의해 그리고 부호 기반 QR 피드백에서 불가분성 집합을 특징짓는다.
QR 피드백이 양의 아핀 동등성까지의 효용 학습 가능성을 보장한다(정리 4), 반면 BR 피드백은 학습 가능하지 않다(정리 5).
BR 및 QR 하에서 O(nM log T) 규모의 후회를 갖는 낮은 후회를 얻기 위한 기하학적 절단평면(cutting-plane) 방식에 기반한 알고리즘을 제공한다(정리 3).
QR 하에서 정밀도 ε에 대한 O(m n M log(1/ε)) 권고로 학습 복잡도를 정량화한다(정리 2).

실험 결과

연구 질문

RQ1반복적인 권고와 관찰된 행동으로부터 모더레이터가 알려지지 않은 에이전트의 효용을 회복할 수 있는가? 불가능하다면 어떤 등가 클래스가 식별 가능한가?
RQ2BR 및 QR 피드백 하에서 유인-이탈에 대한 낮은 후회를 가지는 온라인 권고를 설계하는 것이 가능하인가?
RQ3피드백 모델(BR 대 QR)이 학습 가능성과 구별 불가능한 게임의 구조에 어떤 영향을 미치는가?
RQ4BR 피드백 하에서 구별 불가능한 효용의 기하학적 특징은 무엇인가?
RQ5미지의 게임에서 학습 및 권고를 위한 샘플 복잡도와 후회 한계는 무엇인가?

주요 결과

퀀탈 응답(QR) 피드백 하에서 게임 효용은 에이전트별 양의 아핀 변환까지 학습 가능하다.
베스트 응답(BR) 피드백 하에서는 더 큰 범위의 효용이 구별 불가능한 상태로 남아 있으며, 본 논문은 이 집합에 대한 완전한 기하학적 특징화를 제시한다.
QR 기반 학습 알고리즘은 ε-근사(유틸리티에서) O(m n M log(1/ε)) 권고로 달성하며, 게임 크기에 대해 거의 선형이다.
온라인 알고리즘은 BR 및 QR 피드백 모두에서 후회 O(nM log T)을 달성하며, 행동 수에 대해 선형, 시간에 대해 로그 의존성을 가진다.
결과는 비평형(피드백) 행동을 활용하여 전략적 다중 에이전트 환경에서 AI 권고 시스템의 이론적 기초를 확립한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.