QUICK REVIEW

[論文レビュー] Stochastic nonzero-sum games: a new connection between singular control and optimal stopping

Tiziano De Angelis, Giorgio Ferrari|arXiv (Cornell University)|Jan 21, 2016

Stochastic processes and financial applications参考文献 48被引用数 36

ひとこと要約

本稿は、2人対戦の非ゼロ和確率的停止ゲームと特異制御ゲームの間で、新たな接続を確立する。停止ゲームにおける2つの異なる境界に到達する際のナッシュ均衡が、スコロホド反射を介して特異制御ゲームにおけるナッシュ均衡に対応することを示している。特異制御ゲームにおけるプレイヤーの価値関数は、最適停止ゲームからの対応する価値関数の積分によって得られ、両フレームワーク間の微分的関係を提供する。

ABSTRACT

In this paper we establish a new connection between a class of 2-player nonzero-sum games of optimal stopping and certain $2$-player nonzero-sum games of singular control. We show that whenever a Nash equilibrium in the game of stopping is attained by hitting times at two separate boundaries, then such boundaries also trigger a Nash equilibrium in the game of singular control. Moreover a differential link between the players' value functions holds across the two games.

研究の動機と目的

2人対戦の確率的設定下で、非ゼロ和の最適停止ゲームと特異制御ゲームの間の理論的接続を新たに確立すること。
最適停止ゲームにおけるしきい値型戦略によるナッシュ均衡が、関連する特異制御ゲームにおける均衡に対応する条件を特定すること。
2つのゲーム間の価値関数の微分的関係を導出し、フレームワーク間での解の変換を可能にすること。
単一プレイヤーおよびゼロ和の設定に限らない既存の特異制御と最適停止の接続を、非ゼロ和戦略的相互作用へと拡張すること。
1次元の拡散過程における境界挙動の分析と検証定理を用いて、対応関係を検証すること。

提案手法

著者らは、拡散過程 X の最適停止を含む2人対戦の非ゼロ和ゲームと、関連する拡散過程 X̃ の特異制御を含むゲームをモデル化する。
最適停止ゲームにおけるナッシュ均衡を、2つの異なる境界 a* および b* への到達時刻として定義し、プレイヤーは区間 (a*, b*) を離れると退出する。
特異制御ゲームでは、プレイヤーが単調な制御を適用して X̃ を [a*, b*] 内に保ち、制御効率を最小化するためにスコロホド反射を用いる。
特異制御ゲームにおける価値関数は、最適停止ゲームからの対応する価値関数の積分によって構築される。
均衡戦略の等価性を確認するため、2つのゲーム間の等価性を形式化する検証定理が提示される。
解析は1次元のイト拡散、ハミルトニアン・ジャコビ・ベルマン方程式、制御されたダイナミクス下での反射拡散の性質に依拠する。

実験結果

リサーチクエスチョン

RQ12人対戦の非ゼロ和最適停止ゲームにおけるナッシュ均衡が、関連する特異制御ゲームにおけるナッシュ均衡に対応する条件は何か？
RQ2特異制御ゲームにおける2人のプレイヤーの価値関数は、最適停止ゲームにおけるそれらの価値関数とどのように関係しているか？
RQ3最適停止ゲームで停止を引き起こすしきい値を、特異制御ゲームにおけるスコロホド反射ポリシーを定義するために使用できるか？そのポリシーがナッシュ均衡をもたらすか？
RQ4コスト関数 G_i および報酬関数 L_i の構造が、2つのゲーム間の対応関係を保証するために果たす役割は何か？
RQ52つのゲームにおける価値関数の微分的関係は、基礎となる確率的ダイナミクスと境界条件からどのように導かれるか？

主な発見

最適停止ゲームにおけるナッシュ均衡（境界 a* および b* への到達時刻による）は、スコロホド反射を介して、拡散過程を [a*, b*] 内に保つことで、特異制御ゲームにおける対応するナッシュ均衡を誘発する。
特異制御ゲームにおける各プレイヤーの価値関数は、最適停止ゲームからの対応する価値関数の積分によって得られ、両フレームワーク間の微分的関係を確立する。
基礎となる拡散過程のドリフトおよび拡散係数に正則性条件が課され、かつコスト／報酬関数 G_i および L_i が両ゲームで一貫している場合、この対応関係は成立する。
最適停止ゲームにおけるしきい値型ナッシュ均衡の存在は、最小限の制御効率で動作するポリシー（つまりスコロホド反射）が特異制御ゲームにおいてナッシュ均衡を形成することを示唆する。
本結果により、単一プレイヤーおよびゼロ和の設定に限った既知の特異制御と最適停止の接続が、非ゼロ和戦略的相互作用へと拡張され、このような接続の適用範囲が広がる。
先行研究の反例から、このような接続が自発的に行われるわけではないことが示されているが、本稿は非ゼロ和設定においてその接続が安定して成立する十分条件を同定している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。