QUICK REVIEW

[论文解读] Learning Attacker's Bounded Rationality Model in Security Games

Adam Żychowski, Jacek Mańdziuk|arXiv (Cornell University)|Sep 27, 2021

Artificial Intelligence in Games参考文献 15被引用 8

一句话总结

本文提出NESG，一种神经演化方法，通过策略评估神经网络（SENN）在无先验收益分布或行为模型知识的情况下，学习并建模Stackelberg安全博弈中攻击者的有限理性。通过在历史博弈数据上训练SENN，NESG在面对非最优理性的对手时，相较于最先进方法展现出更优的性能与可扩展性，尤其在涉及深度包检测的网络安全部署场景中表现突出。

ABSTRACT

The paper proposes a novel neuroevolutionary method (NESG) for calculating leader's payoff in Stackelberg Security Games. The heart of NESG is strategy evaluation neural network (SENN). SENN is able to effectively evaluate leader's strategies against an opponent who may potentially not behave in a perfectly rational way due to certain cognitive biases or limitations. SENN is trained on historical data and does not require any direct prior knowledge regarding the follower's target preferences, payoff distribution or bounded rationality model. NESG was tested on a set of 90 benchmark games inspired by real-world cybersecurity scenario known as deep packet inspections. Experimental results show an advantage of applying NESG over the existing state-of-the-art methods when playing against not perfectly rational opponents. The method provides high quality solutions with superior computation time scalability. Due to generic and knowledge-free construction of NESG, the method may be applied to various real-life security scenarios.

研究动机与目标

解决现有安全博弈模型假设攻击者完全理性的局限，该假设在真实世界人类驱动的对抗场景中常不成立。
克服在真实安全应用中要求完全掌握追随者收益分布及有限理性模型的不切实际性。
提出一种通用的、数据驱动的方法，从历史博弈结果中推断攻击者决策行为，且无需预先假设特定心理模型。
通过以学习到的近似行为模型替代精确理性假设，提升Stackelberg安全博弈中的计算效率与解的质量。
在网络安全、野生动物保护和边境管控等实际领域实现安全博弈解决方案的实用化部署，这些领域中攻击者的行为具有认知局限且难以洞察。

提出的方法

提出一种基于历史博弈数据训练的策略评估神经网络（SENN），在无需明确掌握追随者收益或有限理性模型的情况下，估计领导者在追随者策略下的期望收益。
将SENN集成至演化算法框架（EASG）中，构建端到端的神经演化系统（NESG），用于领导者策略优化。
利用SENN近似追随者对领导者混合策略的响应，通过数据驱动学习而非预设心理模型来有效建模有限理性。
使用监督学习在过往博弈结果上训练SENN，其中输入为领导者混合策略，输出为追随者实际（可能非理性）响应下的期望收益。
应用演化计算搜索高质量领导者策略，SENN在选择与变异过程中提供快速、可微分的收益估计。
通过将SENN训练与在线策略计算解耦，确保可扩展性，即使目标集合较大，也能在博弈过程中实现快速推理。

实验结果

研究问题

RQ1基于数据驱动的神经网络方法是否能在不预先假设攻击者收益结构或行为模型的情况下，有效建模安全博弈中的有限理性？
RQ2通过SENN学习到的有限理性模型性能与假设完全理性或使用固定心理模型的最先进方法相比如何？
RQ3随着目标数量增加，所提出的NESG方法在计算时间上的可扩展性如何，尤其与MILP方法及演化方法相比？
RQ4从历史数据中学习攻击者的行为模型，是否能在真实世界场景中带来比假设最优或固定有限理性响应更高的领导者收益？
RQ5像NESG这样通用的、无需知识的方法是否能跨多样化安全博弈场景泛化，而无需针对每个领域重新配置？

主要发现

在所有基准博弈中，NESG在领导者收益方面持续优于C2016和EASG（二者假设完全理性），尤其在目标数量增加时优势更明显，证明了建模有限理性的优越性。
在128个目标的4步博弈中，NESG平均收益达-0.566，显著优于C2016（-0.607）和EASG（-0.593），表明在高复杂度条件下性能更优。
尽管未预先知晓真实最优响应（BR）模型，NESG在性能上仍优于EASG与锚定理论（AT）、量化响应（QR）及前景理论（PT）模型，表明其对模型失配具有强鲁棒性。
NESG的计算时间随目标数量呈线性增长，优于C2016的指数增长，且与EASG及EASG-BR效率相当，同时在SENN训练完成后推理速度更快。
尽管使用精确BR模型的EASG-BR在收益上略胜一筹，但NESG表现接近，且在真实场景中因无需知晓真实BR模型而具有显著优势。
结果证实，从数据中学习攻击者实际行为比依赖预设有限理性模型更有效，尤其当真实模型未知或与标准心理理论不符时。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。