QUICK REVIEW

[論文レビュー] Learning generalized Nash equilibria from pairwise preferences

Pablo Krupa, Alberto Bemporad|arXiv (Cornell University)|Mar 17, 2026

Optimization and Variational Analysis被引用数 0

ひとこと要約

この論文は、目的関数の値や最適反応にアクセスできないまま、対となるエージェントの好みに基づくアクティブラーニング手法を用いて一般化ナッシュ均衡（GNE）を学習し、ゲーム論的なLQR問題および文献におけるGNEPでの有効性を示す。

ABSTRACT

Generalized Nash Equilibrium Problems (GNEPs) arise in many applications, including non-cooperative multi-agent control problems. Although many methods exist for finding generalized Nash equilibria, most of them rely on assuming knowledge of the objective functions or being able to query the best responses of the agents. We present a method for learning solutions of GNEPs only based on querying agents for their preference between two alternative decisions. We use the collected preference data to learn a GNEP whose equilibrium approximates a GNE of the underlying (unknown) problem. Preference queries are selected using an active-learning strategy that balances exploration of the decision space and exploitation of the learned GNEP. We present numerical results on game-theoretic linear quadratic regulation problems, as well as on other literature GNEP examples, showing the effectiveness of the proposed method.

研究の動機と目的

エージェントの目的関数が未知またはアクセス不可能な場合にGNEを学習する動機付け。
対比較好みデータを活用して各エージェントの代理目的関数を学習する。
好みを問い合わせる探索と利用のバランスを取るアクティブラーニングループを開発する。
学習された代理GNEPが、制約の下で基盤となる未知のGNEPに近い均衡を生み出すことを保証する。
結果を再現し採用を促進するオープンソース実装を提供する。

提案手法

各エージェントの目的関数を theta_i でパラメータ化した代理関数 hat{J}_i としてモデル化する。
好みデータをロジスティック分類問題に変換し、pi_i = 1 iff hat{J}_i^1 <= hat{J}_i^2 となるように theta_i を学習する。損失関数はクロスエントロピー損失と非類似性項 d_i を用いる。
候補意思決定が近い場合の分類精度を向上させるため、非類似性関数 d_i を組み込む。
hat{J}_i を用いた代理GNEPを解いて候補意思決定を生成し、Algorithm 1（アクティブラーニングループ）で theta_i を反復更新する。
クエリ選択に探索-利用のトレードオフを用い、デルタ^k および sigma^k の適応で探索と摂動を誘導する。
オープンソースの Python 実装 prefGNEP を提供し、GNEP および最適反応ステップの標準ソルバー（例: NashOpt）を活用する。

実験結果

リサーチクエスチョン

RQ1対となる好みクエリだけで、目的値や最適反応にアクセスせずにGNEを近似できるか？
RQ2アクティブラーニング戦略は、未知の問題の真のGNEへ収束する代理GNEP の均衡を生み出すか？
RQ3好みベースの代理が、ゲーム論的LQR設定および文献のGNEPインスタンスの両方でどれだけ性能を発揮するか？
RQ4非類似性と探索-利用のバランスが学習精度と収束においてどのような役割を果たすか？
RQ5境界領域を探索するためのノイズを注入しても手法は頑健か？

主な発見

この手法は、真の目的値を問い合わせることなく、GNEの周囲の局所好みを分類する代理目的関数を学習することによりGNEを学習する。
ゲーム論的LQR問題での経験的結果は、反復の進行に伴いGNEへ収束傾向を示し、真の均衡との整合性が改善されることを示す。
文献由来のGNEPに対して本手法を適用し、さまざまな問題設定下で基盤となる均衡へ反復を導く能力を示す。
オープンソース実装(prefGNEP)を提供し、再現性と類似問題への適用を可能にする。
好みモデルに非類似性項を含めると、候補意思決定が接近している場合の分類精度が向上し、収束と頑健性を助ける。
ALフレームワークは探索と利用をバランスさせ、代理がGNEの局所分類器としてより良くなるにつれて利用へと徐々に焦点を移す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。