QUICK REVIEW

[論文レビュー] Winning isn't everything: Evolutionary instability of Zero Determinant strategies

Christoph Adami, Arend Hintze|arXiv (Cornell University)|Aug 13, 2012

Evolutionary Game Theory and Cooperation被引用数 7

ひとこと要約

この論文は、繰り返し囚人のジレンマにおいて、ゼロデターミナント（ZD）戦略が相手の報酬を単独で制御できることを示しているが、進化的に不安定であり、時間の経過とともに支配的でない戦略へと進化する傾向があることを示している。ZD戦略が認識能力を備えている場合、安定かつ搾取的であることは可能であるが、そのような利点は一時的であり、相手の戦略が認識を回避するように進化するためである。

ABSTRACT

Zero Determinant (ZD) strategies are a new class of probabilistic and conditional strategies that are able to unilaterally set the expected payoff of an opponent in iterated plays of the Prisoner's Dilemma irrespective of the opponent's strategy, or else to set the ratio between a ZD player's and their opponent's expected payoff. Here we show that while ZD strategies are weakly dominant, they are not evolutionarily stable and will instead evolve into less coercive strategies. We show that ZD strategies with an informational advantage over other players that allows them to recognize other ZD strategies can be evolutionarily stable (and able to exploit other players). However, such an advantage is bound to be short-lived as opposing strategies evolve to counteract the recognition.

研究の動機と目的

繰り返し囚人のジレンマにおけるゼロデターミナント（ZD）戦略の進化的安定性を調査すること。
ZD戦略が報酬制御において優位であるにもかかわらず、進化的ダイナミクスにおいて持続可能かどうかを検討すること。
情報的優位性、特に他のZDプレイヤーを識別できる能力が、ZD戦略の長期的安定性を可能にする役割を評価すること。
ZD認識メカニズムに対し、相手の戦略がどのように進化するかを分析することにより、その利点の持続可能性を評価すること。

提案手法

進化的ゲーム理論を用いて繰り返し囚人のジレンマをモデル化し、世代にわたる戦略ダイナミクスをシミュレートすること。
ZD戦略を数学的に定義し、確率的かつ条件付き戦略として、期待報酬や報酬比を単独で設定できることを示すこと。
ZDプレイヤーが他のZDプレイヤーと非ZDプレイヤーを区別できる認識メカニズムを導入すること。
認識の有無、および戦略の変異率や選択圧の強さの異なる条件下で、進化的ダイナミクスをシミュレートすること。
報酬行列と進化的安定性基準を用いてZD戦略の安定性を分析すること。
ZD認識能力を搾取または無効化する戦略の出現と拡散を追跡すること。

実験結果

リサーチクエスチョン

RQ1繰り返し囚人のジレンマの長期的ダイナミクスにおいて、ゼロデターミナント（ZD）戦略は進化的に安定しているか？
RQ2ZD戦略が他のZDプレイヤーを識別する情報的優位性を有する場合、支配的である状態を維持できるか？
RQ3ZD認識メカニズムに対し、相手の戦略はどのように進化するのか？その利点の有効期間はどのくらいか？
RQ4ZD戦略が抑圧的であるにもかかわらず、その coercive な性質と進化的不安定性を克服して安定を保てる条件は何か？
RQ5進化的圧力下で、ZDプレイヤーと相手の間の報酬比はどのように変化するか？

主な発見

ZD戦略は報酬設定において弱い優位性を示すが、進化的に不安定であり、時間の経過とともに支配的でない戦略へと進化する傾向がある。
他のZDプレイヤーを認識できるZD戦略は、進化的に安定し、非ZD相手を搾取することができる。
他のZDプレイヤーを認識できるという情報的優位性は一時的であり、相手の戦略がその認識を回避するように進化するためである。
ZD戦略に対する進化的圧力は、より協力的で、搾取的でない行動への移行を引き起こす。
ZD行動を模倣するが認識を避ける戦略が選択され、結果として搾取的ZD戦略の長期的持続可能性が損なわれる。
認識と逆認識のダイナミックな相互作用は、進化的なレースを引き起こし、最終的にZD支配の不安定化をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。