[论文解读] Understanding The Impact of Partner Choice on Cooperation and Social Norms by means of Multi-agent Reinforcement Learning.
本文研究了多智能体强化学习中伙伴选择如何促进自私智能体之间的合作。通过允许智能体根据过往行为有选择地与他人互动,该系统能够对背叛者实施报复性反应,并与合作者维持长期合作,从而在没有明确合作激励的情况下形成一种利他社会。
Social dilemmas have been widely studied to explain how humans are able to cooperate in society. Considerable effort has been invested in designing artificial agents for social dilemmas that incorporate explicit agent motivations that are chosen to favor coordinated or cooperative responses. The prevalence of this general approach points towards the importance of achieving an understanding of both an agent's internal design and external environment dynamics that facilitate cooperative behavior. In this paper, we investigate how partner selection can promote cooperative behavior between agents who are trained to maximize a purely selfish objective function. Our experiments reveal that agents trained with this dynamic learn a strategy that retaliates against defectors while promoting cooperation with other agents resulting in a prosocial society.
研究动机与目标
- 理解伙伴选择如何影响社会困境中的合作。
- 检验仅以纯粹自私目标训练的智能体是否仍能通过动态伙伴选择发展出利他行为。
- 探索在多智能体系统中互惠与报复等社会规范的涌现。
提出的方法
- 智能体使用深度强化学习进行训练,以最大化个体奖励,且无明确的合作激励。
- 智能体根据历史合作结果动态选择互动伙伴。
- 环境强制实施社会困境,其中相互合作的回报高于背叛。
- 报复通过智能体策略隐式编码:背叛者在未来互动中被回避。
- 学习过程使智能体发展出偏好合作伙伴并排除背叛者的策略。
- 在重复的社会困境游戏(如囚徒困境)中评估该系统,采用不同的伙伴选择规则。
实验结果
研究问题
- RQ1伙伴选择如何影响自私多智能体系统中合作的涌现?
- RQ2智能体是否能在无明确合作激励的情况下发展出利他行为?
- RQ3报复在通过伙伴选择维持合作中扮演何种角色?
- RQ4在此设置中,互惠与排斥背叛者等社会规范如何涌现?
主要发现
- 智能体通过选择性互动学会回避背叛者,减少被剥削的风险,从而促进长期合作。
- 即使智能体仅以纯粹自私目标进行训练,合作仍作为伙伴选择的战略结果自发涌现。
- 系统发展出一种间接互惠形式,智能体因过去的合作行为而通过持续与之互动而获得回报。
- 背叛者被系统性地排除在未来互动之外,从而形成一个自我维持的利他环境。
- 合作的涌现具有稳定性和鲁棒性,适用于多次训练运行和环境变化。
- 无需显式奖励塑形或合作激励,利他行为即可自然涌现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。