QUICK REVIEW

[論文レビュー] Learning Attacker's Bounded Rationality Model in Security Games

Adam Żychowski, Jacek Mańdziuk|arXiv (Cornell University)|Sep 27, 2021

Artificial Intelligence in Games参考文献 15被引用数 8

ひとこと要約

本稿では、報酬分布や行動モデルに関する事前知識がなくても、Stackelbergセキュリティゲームにおける攻撃者の限定的合理性を学習・モデル化する神経進化的手法NESGを提案する。歴史的ゲームデータに基づいてSENNを訓練することで、非最適に合理的な相手に対して、特にディープパケットインスペクションを伴うサイバーセキュリティシナリオにおいて、最先端手法を上回る性能とスケーラビリティを達成する。

ABSTRACT

The paper proposes a novel neuroevolutionary method (NESG) for calculating leader's payoff in Stackelberg Security Games. The heart of NESG is strategy evaluation neural network (SENN). SENN is able to effectively evaluate leader's strategies against an opponent who may potentially not behave in a perfectly rational way due to certain cognitive biases or limitations. SENN is trained on historical data and does not require any direct prior knowledge regarding the follower's target preferences, payoff distribution or bounded rationality model. NESG was tested on a set of 90 benchmark games inspired by real-world cybersecurity scenario known as deep packet inspections. Experimental results show an advantage of applying NESG over the existing state-of-the-art methods when playing against not perfectly rational opponents. The method provides high quality solutions with superior computation time scalability. Due to generic and knowledge-free construction of NESG, the method may be applied to various real-life security scenarios.

研究の動機と目的

現行のセキュリティゲームモデルが完全に合理的な攻撃者を仮定しているという限界を是正すること。これは、現実の人的主導の敵対的状況ではしばしば成立しない。
現実のセキュリティ応用において、フォロワーの報酬分布や限定的合理性モデルを完全に把握する必要があるという現実的でない課題を克服すること。
事前に特定の心理的モデルを仮定せず、歴史的ゲーム結果から攻撃者の意思決定行動を推定する汎用的でデータ駆動のアプローチを開発すること。
正確な合理性の仮定を学習済みの近似行動モデルに置き換えることで、Stackelbergセキュリティゲームにおける計算効率と解の質を向上させること。
攻撃者の行動が認知的に制限されており、不透明である分野（例：サイバーセキュリティ、野生生物保護、国境管理）におけるセキュリティゲームソリューションの実用的導入を可能にすること。

提案手法

歴史的ゲームデータに基づいて訓練された戦略評価ニューラルネットワーク（SENN）を提案し、フォロワーの戦略下でのリーダーの期待報酬を推定する。これにはフォロワーの報酬や限定的合理性モデルの明示的知識が不要である。
SENNを進化計算フレームワーク（EASG）に統合し、リーダー戦略最適化のためのエンドツーエンドの神経進化システム（NESG）を構築する。
SENNを用いてフォロワーの混合戦略への反応を近似し、事前に定義された心理的モデルではなく、データ駆動の学習によって限定的合理性を効果的にモデル化する。
過去のゲーム結果を用いた教師あり学習によりSENNを訓練する。入力はリーダーの混合戦略、出力はフォロワーの実際の（非合理的な）反応下での期待報酬である。
選択と変異プロセス中にSENNを用いて高速かつ微分可能なかい報酬推定を実行することで、進化計算を用いて高品質なリーダー戦略を探索する。
SENNのトレーニングをオンライン戦略計算から分離することでスケーラビリティを確保し、大規模なターゲット集合に対しても、ゲームプレイ中の高速推論を可能にする。

実験結果

リサーチクエスチョン

RQ1報酬構造や行動モデルに関する事前仮定なしに、データ駆動のニューラルネットワーク手法が、セキュリティゲームにおける限定的合理性を効果的にモデル化できるか。
RQ2SENNを用いて学習した限定的合理性モデルの性能は、完全合理的または固定された心理的モデルを仮定する最先端手法と比べてどうか。
RQ3ターゲット数の増加に伴い、提案手法NESGの計算時間はどの程度スケーリングするか。特にMILPベースや進化計算手法と比較してどうか。
RQ4歴史的データから攻撃者の行動モデルを学習することは、現実のシナリオにおいて最適または固定された限定的合理性応答を仮定するよりも、リーダーの報酬を向上させるか。
RQ5C2016やEASG（最適な報酬を仮定）と比較して、ターゲット数128の4段階ゲームで、NESGは平均報酬-0.566を達成し、C2016（-0.607）とEASG（-0.593）を上回った。これは、高複雑性条件下でも優れた性能を示している。
RQ6SENNを用いた学習モデルは、真のBRモデルが事前に不明な状況下でも、アンカリング理論（AT）、定量的応答（QR）、プロスペクト理論（PT）モデルを用いたEASGと比較して優れた結果を示した。これは、モデル不一致に対するロバストネスを示している。
RQ7NESGの計算時間はターゲット数に比例して線形にスケーリングされ、C2016の指数的増加を上回り、EASGやEASG-BRと同等の効率を示した。さらに、SENNトレーニング後は推論が高速であるという利点もあった。
RQ8EASG-BR（正確なBRモデルを用いる）はNESGをわずかに上回る報酬を達成したが、後者の性能は非常に近く、真のBRモデルが未知である現実世界の設定では極めて優位な利点を示した。
RQ9結果から、真の攻撃者行動をデータから学習することが、標準的心理理論とは異なる場合や真のモデルが不明な場合に、事前に定義された限定的合理性モデルに依存するよりもはるかに効果的であることが確認された。

主な発見

NESGは、C2016とEASG（完全合理的を仮定）を、すべてのベンチマークゲームでリーダー報酬面で一貫して上回った。特にターゲット数が増加するにつれてその優位性が顕著になった。
ターゲット数128の4段階ゲームでは、NESGが平均報酬-0.566を達成し、C2016（-0.607）とEASG（-0.593）を上回った。これは、高複雑性条件下でも優れた性能を示している。
真のBRモデルが事前に不明な状況下でも、SENNを用いた学習モデルは、アンカリング理論（AT）、定量的応答（QR）、プロスペクト理論（PT）モデルを用いたEASGと比較して優れた結果を示した。これは、モデル不一致に対するロバストネスを示している。
NESGの計算時間はターゲット数に比例して線形にスケーリングされ、C2016の指数的増加を上回り、EASGやEASG-BRと同等の効率を示した。さらに、SENNトレーニング後は推論が高速であるという利点もあった。
EASG-BR（正確なBRモデルを用いる）はNESGをわずかに上回る報酬を達成したが、後者の性能は非常に近く、真のBRモデルが未知である現実世界の設定では極めて優位な利点を示した。
結果から、真の攻撃者行動をデータから学習することが、標準的心理理論とは異なる場合や真のモデルが不明な場合に、事前に定義された限定的合理性モデルに依存するよりもはるかに効果的であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。