Skip to main content
QUICK REVIEW

[논문 리뷰] Learning to Evade Static PE Machine Learning Malware Models via Reinforcement Learning

Hyrum S. Anderson, Anant Kharkar|arXiv (Cornell University)|2018. 01. 26.
Advanced Malware Detection Techniques참고 문헌 24인용 수 181
한 줄 요약

저자들은 정적 ML 악성코드 탐지기를 우회하기 위해 PE 파일 변이 시퀀스를 학습하는 블랙박스 강화 학습 프레임워크를 제시하고, 연구 용으로 OpenAI Gym 환경을 공개한다.

ABSTRACT

Machine learning is a popular approach to signatureless malware detection because it can generalize to never-before-seen malware families and polymorphic strains. This has resulted in its practical use for either primary detection engines or for supplementary heuristic detection by anti-malware vendors. Recent work in adversarial machine learning has shown that deep learning models are susceptible to gradient-based attacks, whereas non-differentiable models that report a score can be attacked by genetic algorithms that aim to systematically reduce the score. We propose a more general framework based on reinforcement learning (RL) for attacking static portable executable (PE) anti-malware engines. The general framework does not require a differentiable model nor does it require the engine to produce a score. Instead, an RL agent is equipped with a set of functionality-preserving operations that it may perform on the PE file. Through a series of games played against the anti-malware engine, it learns which sequences of operations are likely to result in evading the detector for any given malware sample. This enables completely black-box attacks against static PE anti-malware, and produces functional evasive malware samples as a direct result. We show in experiments that our method can attack a gradient-boosted machine learning model with evasion rates that are substantial and appear to be strongly dependent on the dataset. We demonstrate that attacks against this model appear to also evade components of publicly hosted antivirus engines. Adversarial training results are also presented: by retraining the model on evasive ransomware samples, a subsequent attack is 33% less effective. However, there are overfitting dangers when adversarial training, which we note. We release code to allow researchers to reproduce and improve this approach.

연구 동기 및 목표

  • 정적 PE 악성코드 탐지기를 위한 블랙박스 회피 프레임워크를 동기 부여하고 형식화한다.
  • RL 에이전트가 그래디언트 부스트(detector)를 피하는 변이 시퀀스를 학습할 수 있음을 시연한다.
  • 회피 샘플을 적대적 학습을 통해 모델 강건성을 향상시키는 데 사용할 수 있음을 보여준다.
  • 연구자들이 회피를 연구할 수 있도록 OpenAI Gym 환경과 오픈 소스 도구 키트를 제공한다.
  • 실제 환경에서 이러한 회피를 적용할 때의 실용적 한계와 고려사항을 강조한다.

제안 방법

  • 에이전트가 형식이나 기능을 손상시키지 않으면서 PE 파일을 변이시키는 것을 목표로, 맬웨어 회피를 강화 학습 문제로 정식화한다.
  • 실행을 보존하면서 특징을 변경하는 PE 조작 행동 집합에 대해 정책을 학습하기 위해 ACER 에이전트를 사용한다.
  • 환경 상태를 PE 관련 메타데이터와 바이트 통계의 2350차원 특징 벡터로 표현한다.
  • 회피에 대해 보상 R을 주고 그렇지 않으면 0으로 보상하여 탐지기에 대한 블랙박스 공격을 촉진한다.
  • 샘플이 라운드마다 최대 열 번의 변이를 겪을 수 있는 게임형 설정에서 작동하며, 모델 훈련당 총 50,000회의 변이가 수행된다.
  • 커뮤니티 연구를 가능하게 하는 확장 가능한 OpenAI Gym 환경과 기본 ACER 에지런트 구현을 공개한다.

실험 결과

연구 질문

  • RQ1블랙박스 조건에서 강화 학습 에이전트가 정적 맬웨어 탐지기를 회피하기 위한 효과적인 PE 파일 변이 시퀀스를 학습할 수 있는가?
  • RQ2출현하는 지배적인 변이 전략은 무엇이며, 이것들이 보지 못한 샘플에 어떻게 일반화되는가?
  • RQ3향후 회피 시도에 대해 탐지기를 강건하게 만들기 위한 적대적 학습에서 회피 샘플은 얼마나 효과적인가?
  • RQ4실제 환경에서 RL 기반 맬웨어 회피의 기능성과 배치에 영향을 주는 실용적 한계는 무엇인가?

주요 결과

  • RL 에이전트는 보류 샘플에서 데이터 세트 전반에 걸쳐 주목할 만한 회피율을 달성했다: VirusShare 24%, ransomware 12%, Virut 10%, BrowseFox 19% (무작위 정책은 각각 23%, 9%, 9%, 18%).
  • 에이전트는 학습 중에 회피 변이를 발견했고, 50K 변이 예산에서 각각 2085(VirusShare), 1543(ransomware), 619(Virut), 2444(BrowseFox) 회피를 기록했다.
  • 회피적 란섬웨어 샘플을 이용한 적대적 학습은 새로운 랜섬웨어 공격에 대한 회피 효과를 12%에서 8%로 감소시켰다.
  • 이 접근 방식은 작동하는 PE 맬웨어 변형을 생성할 수 있어 모델 강건화 및 연구를 위한 사용 가능한 회피 샘플을 가능하게 한다.
  • OpenAI Gym 환경(gym-malware)이 공개되어 사용자 모델, 샘플 및 RL 에이전트에 대한 회피율을 연구한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.