[论文解读] Learning generalized Nash equilibria from pairwise preferences
论文提出一种基于主动学习的偏好方法,从对偶代理偏好中学习广义纳什均衡(GNE),在不知道目标函数值或最佳响应的情况下,且在博弈论的 LQR 问题和文献 GNEP 上证明其有效性。
Generalized Nash Equilibrium Problems (GNEPs) arise in many applications, including non-cooperative multi-agent control problems. Although many methods exist for finding generalized Nash equilibria, most of them rely on assuming knowledge of the objective functions or being able to query the best responses of the agents. We present a method for learning solutions of GNEPs only based on querying agents for their preference between two alternative decisions. We use the collected preference data to learn a GNEP whose equilibrium approximates a GNE of the underlying (unknown) problem. Preference queries are selected using an active-learning strategy that balances exploration of the decision space and exploitation of the learned GNEP. We present numerical results on game-theoretic linear quadratic regulation problems, as well as on other literature GNEP examples, showing the effectiveness of the proposed method.
研究动机与目标
- 当代理的目标函数未知或不可获取时,激励学习 GNE。
- 利用成对偏好数据为每个代理训练代理目标函数(替代目标) 。
- 开发主动学习循环,在查询偏好时实现探索与开发的平衡。
- 确保学习得到的替代 GNEP 在约束下产生的均衡接近潜在未知 GNEP。
- 提供开源实现以复现结果并促进采用。
提出的方法
- 将每个代理的目标建模为参数化的替代函数 hat{J}_i,参数为 theta_i。
- 将偏好数据转化为逻辑回归分类问题,以学习 theta_i,使 pi_i = 1 当且仅当 hat{J}_i^1 <= hat{J}_i^2,使用带不相似项 d_i 的交叉熵损失。
- 引入不相似性函数 d_i,以在候选决策接近时提高分类性能。
- 用 hat{J}_i 求解替代 GNEP 以生成候选决策,并通过 Algorithm 1(主动学习循环)迭代更新 theta_i。
- 在查询选择中采用探索-开发权衡,动态调整 delta^k 和 sigma^k 以引导探索与扰动。
- 提供开源 Python 实现(prefGNEP),并利用标准求解器完成 GNEP 和最佳响应步骤(如 NashOpt)。
实验结果
研究问题
- RQ1是否仅通过成对偏好查询即可在不访问目标值或最佳响应的情况下近似 GNE?
- RQ2主动学习策略是否能产生其均衡收敛到未知问题的真实 GNE 的替代 GNEP?
- RQ3偏好基替代在博弈论 LQR 设置和文献 GNEP 实例上的表现如何?
- RQ4在学习精度与收敛性方面,不相似性与探索-开发平衡起到何种作用?
- RQ5该方法对边界区域的约束和噪声注入是否具备鲁棒性?
主要发现
- 该方法通过训练替代目标以对局部偏好在 GNE 周围进行分类,从未查询真实目标值,从而学习 GNE。
- 在博弈论 LQR 问题上的经验结果显示了向 GNE 收敛的趋势,并随着迭代次数的增加而与真实均衡的对齐度提高。
- 在文献中的 GNEP 实例上展示了该方法的可行性,能够在各种问题设定下引导迭代接近潜在均衡。
- 提供开源实现(prefGNEP),实现可重复性并可应用于类似问题。
- 在偏好模型中加入不相似项,当候选决策接近时可提升分类准确性,帮助收敛与鲁棒性。
- 主动学习框架在探索与开发之间取得平衡,随着替代成为更好的局部分类器,逐步更专注于开发。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。