[論文レビュー] Inequity aversion improves cooperation in intertemporal social dilemmas
著者らは inequity-averse preferences を Markov games における multi-agent reinforcement learning に拡張し、 advantageous inequity aversion は intertemporal social dilemmas で協力を促進し、一方 disadvantageous inequity aversion は特定の設定で罰を介して協力を助ける。
Groups of humans are often able to find ways to cooperate with one another in complex, temporally extended social dilemmas. Models based on behavioral economics are only able to explain this phenomenon for unrealistic stateless matrix games. Recently, multi-agent reinforcement learning has been applied to generalize social dilemma problems to temporally and spatially extended Markov games. However, this has not yet generated an agent that learns to cooperate in social dilemmas as humans do. A key insight is that many, but not all, human individuals have inequity averse social preferences. This promotes a particular resolution of the matrix game social dilemma wherein inequity-averse individuals are personally pro-social and punish defectors. Here we extend this idea to Markov games and show that it promotes cooperation in several types of sequential social dilemma, via a profitable interaction with policy learnability. In particular, we find that inequity aversion improves temporal credit assignment for the important class of intertemporal social dilemmas. These results help explain how large-scale cooperation may emerge and persist.
研究の動機と目的
- 静的な matrix games を超えた temporally extended social dilemmas での協力研究を動機づける。
- inequity-averse preferences を sequential Markov games に generalize する multi-agent RL setting。
- inequity aversion が学習と政策形成にどう影響して協力を促進するかを調べる。
- inequity aversion が temporal credit assignment および協調行動の出現に与える影響を探る。
提案手法
- モデルは部分観測可能な Markov game で、複数のエージェントが各自の観測と報酬を介して独立に学習する。
- 各エージェントの方策を学習するために neural networks を用いた asynchronous advantage actor-critic (A3C) を用いる。
- 逐次設定に inequity aversion を実装するために per-player の報酬の temporal smoothing を導入する(intrinsic rewards)。
- Fehr–Schmidt inequity aversion model を Markov games に拡張し、 disadvantageous and advantageous inequity aversion のパラメータを導入する。
- empirical Schelling diagrams を用いた社会的ジレンマとして環境を検証し、2 つの gridworld ゲーム (Cleanup and Harvest)。
- 2 つの追加ゲーム (Dictate apples, Give apples, Take apples) を調べて、簡単な 2 プレーヤー設定における inequity-averse 行動を示す。
実験結果
リサーチクエスチョン
- RQ1stateless matrix games から sequential, multi-agent Markov games へ inequity-averse preferences を拡張できるか?
- RQ2advantageous and disadvantageous inequity aversion は intertemporal social dilemmas で協力を促進するか、どの条件下か?
- RQ3 inequity aversion は multi-agent RL における temporal credit assignment と learning dynamics にどう影響するか?
- RQ4特定の環境(public goods vs. commons)は inequity-averse incentives によって異なる影響を受けるか?
主な発見
- Advantageous inequity aversion は Cleanup の public goods game における集合的成果と協力を向上させ、Harvest でも temporally credit assignment を改善することで役立つ。
- Disadvantageous inequity aversion は Harvest の commons game で罰と報酬のタイミングを通じて協力を支援し、たとえこの特性を示すエージェントが1つでもそうである。
- Baseline A3C エージェントは社会的利益を達成できず、一方 inequity-averse エージェントは特定の設定で協力や持続性といった社会的指標を改善する。
- Delaying intrinsic rewards for inequity aversion はその効果を減少させ、協力的ポリシーを学ぶ際の timely intrinsic feedback の役割を浮き彫りにする。
- The effects are task-conditional: advantageous inequity aversion は public goods dilemmas に特に有効で、disadvantageous inequity aversion は commons dilemmas でより強い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。