QUICK REVIEW

[논문 리뷰] Learning Attacker's Bounded Rationality Model in Security Games

Adam Żychowski, Jacek Mańdziuk|arXiv (Cornell University)|2021. 09. 27.

Artificial Intelligence in Games참고 문헌 15인용 수 8

한 줄 요약

이 논문은 지ay한 보상 분포나 행동 모델에 대한 사전 지식 없이 스택엘베르크 보안 게임에서 공격자의 유한한 이성성(보편적 이성)을 학습하고 모델링하기 위해 전략 평가 신경망(SENN)을 사용하는 신경진화적 방법인 NESG를 제안한다. 이전 게임 데이터를 기반으로 SENN를 훈련시킴으로써, NESG는 비최적의 이성성을 가진 상대방을 대응할 때 기존 최고 수준의 방법들보다 뛰어난 성능과 확장성을 보이며, 특히 딥 패킷 인spect와 같은 사이버보안 시나리오에서 유의미한 성과를 거둔다.

ABSTRACT

The paper proposes a novel neuroevolutionary method (NESG) for calculating leader's payoff in Stackelberg Security Games. The heart of NESG is strategy evaluation neural network (SENN). SENN is able to effectively evaluate leader's strategies against an opponent who may potentially not behave in a perfectly rational way due to certain cognitive biases or limitations. SENN is trained on historical data and does not require any direct prior knowledge regarding the follower's target preferences, payoff distribution or bounded rationality model. NESG was tested on a set of 90 benchmark games inspired by real-world cybersecurity scenario known as deep packet inspections. Experimental results show an advantage of applying NESG over the existing state-of-the-art methods when playing against not perfectly rational opponents. The method provides high quality solutions with superior computation time scalability. Due to generic and knowledge-free construction of NESG, the method may be applied to various real-life security scenarios.

연구 동기 및 목표

기존 보안 게임 모델이 완벽한 이성적인 공격자라는 가정을 하고 있지만, 이는 종종 인간이 주도하는 실제의 적대적 상황에서는 실패하기 때문에 이러한 한계를 해결한다.
실제 보안 응용 프로그램에서 후속자 보상 분포와 유한한 이성성 모델을 완전히 알고 있다는 것이 비현실적이므로 이를 해결한다.
사전에 특정 심리학적 모델을 가정하지 않고 역학적 게임 결과의 역사적 데이터로부터 공격자의 의사결정 행동을 추론하는 일반적이고 데이터 기반의 접근법을 개발한다.
정확한 이성성 가정을 대체하여 학습된 근사 행동 모델을 도입함으로써 스택엘베르크 보안 게임에서 계산 효율성과 해의 품질을 향상시킨다.
공격자 행동이 인지적으로 제한되고 투명하지 않은 도메인, 예를 들어 사이버보안, 야생동물 보호, 국경 통제 등에서 보안 게임 솔루션의 실용적 구현을 가능하게 한다.

제안 방법

역사적 게임 데이터를 기반으로 훈련된 전략 평가 신경망(SENN)을 제안하여, 후속자의 보상이나 유한한 이성성 모델에 대한 명시적 지식 없이도 리더의 기대 보상치를 추정한다.
SENN를 진화 알고리즘 프레임워크(EASG)에 통합하여, 리더 전략 최적화를 위한 엔드 투 엔드 신경진화 시스템(NESG)을 구축한다.
SENN를 사용해 리더의 혼합 전략에 대한 후속자의 반응을 근사화함으로써, 사전 정의된 심리학적 모델이 아닌 데이터 기반 학습을 통해 유한한 이성성을 효과적으로 모델링한다.
과거 게임 결과를 사용해 지도 학습 방식으로 SENN를 훈련시키며, 입력은 리더의 혼합 전략이고 출력은 후속자의 실제(비이성적일 수 있는) 반응 하에서의 기대 보상이다.
선택 및 돌연변이 과정 동안 빠르고 미분 가능한 보상 추정을 제공하기 위해, SENN를 활용해 고품질 리더 전략을 탐색하기 위해 진화 계산을 적용한다.
SENN 훈련을 온라인 전략 계산에서 분리함으로써 확장성을 확보하여, 대규모 타겟 집합을 가진 상황에서도 게임 중 빠른 추론이 가능하도록 한다.

실험 결과

연구 질문

RQ1사전에 공격자의 보상 구조나 행동 모델에 대한 가정 없이 데이터 기반 신경망 접근법이 보안 게임에서 유한한 이성성을 효과적으로 모델링할 수 있는가?
RQ2SENN를 통해 학습된 유한한 이성성 모델의 성능은 정확한 이성성 또는 고정된 심리학적 모델을 가정하는 최고 수준의 방법들과 비교해 어떻게 되는가?
RQ3타겟 수가 증가함에 따라 제안된 NESG 방법의 계산 시간은 어떻게 변화하는가? 특히 MILP 기반 및 진화 기반 방법들과 비교해 볼 때 어떻게 되는가?
RQ4역사적 데이터로부터 공격자의 행동 모델을 학습하는 것이 실제 세계 상황에서 최적 또는 고정된 유한한 이성성 반응을 가정하는 것보다 더 높은 리더 보상을 달성하는가?
RQ5SENG처럼 일반적이고 지식이 없는 접근법이 각 도메인에 맞게 재구성되지 않더라도 다양한 보안 게임 상황에서 일반화 가능한가?

주요 결과

모든 벤치마크 게임에서 NESG는 C2016과 EASG(완벽한 이성성 가정)보다 리더 보상에서 일관되게 뛰어난 성능을 보였으며, 타겟 수가 증가할수록 이러한 이점이 두드러졌다. 이는 유한한 이성성 모델링의 유용성을 입증한다.
128개 타겟을 가진 4단계 게임에서 NESG는 평균 보상 -0.566을 기록했으며, C2016(-0.607)과 EASG(-0.593)보다 유의미하게 높은 성능을 보였다. 이는 고복잡도 조건에서도 뛰어난 성능을 발휘함을 시사한다.
진짜 BR 모델을 사전에 알지 못함에도 불구하고, NESG는 앵커링 이론(AT), 양자 반응(QR), 프로스펙트 이론(PT) 모델을 사용한 EASG보다 더 좋은 결과를 내었으며, 이는 모델 불일치에 대한 강건성을 보여준다.
NESG의 계산 시간은 타겟 수에 따라 선형적으로 증가했으며, C2016의 지수적 증가보다 뛰어나고, EASG 및 EASG-BR와 유사한 효율성을 보였다. 더불어 SENN 훈련 이후 빠른 추론이 가능하다는 추가 이점이 있었다.
EASG-BR(정확한 BR 모델 사용)는 NESG보다 略로 높은 보상을 기록했지만, NESG의 성능는 매우 유사했으며, 실제 세계에서는 진짜 BR 모델이 알려져 있지 않은 상황에서 매우 유리한 성능을 발휘했다.
결과는 실제 공격자 행동을 데이터에서 학습하는 것이 표준 심리학 이론과 다를 수 있는 진짜 모델이 알려져 있지 않은 상황에서 사전 정의된 유한한 이성성 모델에 의존하는 것보다 더 효과적임을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.