QUICK REVIEW

[論文レビュー] Learning to Recommend in Unknown Games

Arwa Alanqary, Zakaria Baba|arXiv (Cornell University)|Feb 19, 2026

Advanced Bandit Algorithms Research被引用数 0

ひとこと要約

この論文は、ベストレスポンスとクアタル反応のフィードバックの下で moderator の勧告を介して未知の効用を学習し、QR による学習性（正のアフィン変換まで）と BR では学習不可能性、そして低レートのオンライン推奨を証明する。

ABSTRACT

We study preference learning through recommendations in multi-agent game settings, where a moderator repeatedly interacts with agents whose utility functions are unknown. In each round, the moderator issues action recommendations and observes whether agents follow or deviate from them. We consider two canonical behavioral feedback models-best response and quantal response-and study how the information revealed by each model affects the learnability of agents' utilities. We show that under quantal-response feedback the game is learnable, up to a positive affine equivalence class, with logarithmic sample complexity in the desired precision, whereas best-response feedback can only identify a larger set of agents' utilities. We give a complete geometric characterization of this set. Moreover, we introduce a regret notion based on agents' incentives to deviate from recommendations and design an online algorithm with low regret under both feedback models, with bounds scaling linearly in the game dimension and logarithmically in time. Our results lay a theoretical foundation for AI recommendation systems in strategic multi-agent environments, where recommendation compliances are shaped by strategic interaction.

研究の動機と目的

未知の効用を持つエージェントと action feedback のみが観測されるモデレーター-エージェント相互作用を形式化する。
2つの行動モデル（ベストレスポンスとクアタル反応）における効用の学習可能性を特徴づける。
両方のフィードバックモデルの下で低誘導挙動が少ないインセンティブ・ツー・ディビエート (低い報酬逸脱) レジレントなオンラインアルゴリズムを提供する。

提案手法

未知の効用を持つ有限正規形式ゲームとしてゲームをモデル化し、モデレーターが行動プロファイルの確率分布を発行する。
2つのエージェント選択モデルを用いる：ベストレスポンス (BR) とクアタル反応 (QR) を用いて観測された行動からのフィードバックを定義する。
エージェントごとの正のアフィン変換まで学習可能性を定義し、BR の下での多面体正規ファンを介した識別不能集合を特徴づけ、QR フィードバックでは符号ベースで識別不能性を特徴づける。
QR フィードバックは正のアフィン同値性まで効用を学習可能にする（定理4）、BR フィードバックはそうではない（定理5）。
幾何的なカッティング平面アプローチに基づくアルゴリズムを提供し、BR および QR の下で後悔を O(nM log T) にスケールさせる低後悔性を得る（定理3）。
QR による学習を ε 精度の効用近似として O(m n M log(1/ε)) の推奨で定量化（定理2）。

実験結果

リサーチクエスチョン

RQ1モデレーターは繰り返しの推奨と観測された行動から未知のエージェントの効用を回収できるか。できない場合、識別可能な同値類は何か。
RQ2BR および QR フィードバックの下で低いインセンティブ・ツー・ディビエートのオンライン推奨を設計可能か。
RQ3フィードバックモデル（BR vs QR）は学習性と識別不能ゲームの構造にどう影響するか。
RQ4BR フィードバックの下で識別不能な効用の幾何的特徴は何か。
RQ5未知のゲームにおける学習と推奨のサンプル複雑度とレジレント bounds はどのようになるか。

主な発見

クアタル反応フィードバックの下で、ゲームの効用はエージェントごとの正のアフィン変換まで学習可能である。
ベストレスポンスフィードバックの下では、識別不能な効用のより大きなクラスが残ることがあり、本論はこの集合の完全な幾何的特徴づけを提供する。
QR ベースの学習アルゴリズムは ε-近似の効用を O(m n M log(1/ε)) の推奨で実現し、ゲーム規模に対してほぼ線形。
オンラインアルゴリズムは BR および QR の両方のフィードバック下でレート O(nM log T) の後悔を達成し、行動数に対して線形、時間に対して対数的依存。
結果は、平行外れのフィードバック挙動を活用する戦略的マルチエージェント環境におけるAI推奨システムの理論的基盤を確立する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。