Skip to main content
QUICK REVIEW

[論文レビュー] Learning to Evade Static PE Machine Learning Malware Models via Reinforcement Learning

Hyrum S. Anderson, Anant Kharkar|arXiv (Cornell University)|Jan 26, 2018
Advanced Malware Detection Techniques参考文献 24被引用数 181
ひとこと要約

著者らは、静的MLマルウェア検出器を回避するためにPEファイルの変異シーケンスを学習するブラックボックス強化学習フレームワークを提示し、機能する回避マルウェアサンプルを生成する。研究用のOpenAI Gym環境を公開する。

ABSTRACT

Machine learning is a popular approach to signatureless malware detection because it can generalize to never-before-seen malware families and polymorphic strains. This has resulted in its practical use for either primary detection engines or for supplementary heuristic detection by anti-malware vendors. Recent work in adversarial machine learning has shown that deep learning models are susceptible to gradient-based attacks, whereas non-differentiable models that report a score can be attacked by genetic algorithms that aim to systematically reduce the score. We propose a more general framework based on reinforcement learning (RL) for attacking static portable executable (PE) anti-malware engines. The general framework does not require a differentiable model nor does it require the engine to produce a score. Instead, an RL agent is equipped with a set of functionality-preserving operations that it may perform on the PE file. Through a series of games played against the anti-malware engine, it learns which sequences of operations are likely to result in evading the detector for any given malware sample. This enables completely black-box attacks against static PE anti-malware, and produces functional evasive malware samples as a direct result. We show in experiments that our method can attack a gradient-boosted machine learning model with evasion rates that are substantial and appear to be strongly dependent on the dataset. We demonstrate that attacks against this model appear to also evade components of publicly hosted antivirus engines. Adversarial training results are also presented: by retraining the model on evasive ransomware samples, a subsequent attack is 33% less effective. However, there are overfitting dangers when adversarial training, which we note. We release code to allow researchers to reproduce and improve this approach.

研究の動機と目的

  • 静的PEマルウェア検出器に対するブラックボックス回避フレームワークを動機づけ、形式化する。
  • RLエージェントが勾配ブースト検出器を回避する変異シーケンスを学習できることを実証する。
  • 回避サンプルが敵対的学習を通じてモデルの頑健性を向上させるのに使用できることを示す。
  • 研究者が回避を研究するためのOpenAI Gym環境とオープンソースツールキットを提供する。
  • 実世界での適用における実務的な制限と考慮事項を強調する。

提案手法

  • エージェントがPEファイルの形式や機能を破壊することなく変異させることで、マルウェア回避を強化学習問題として定式化する。
  • 実行を保持しつつ特徴を変更するPE操作アクションの集合に対するポリシーを学習するためにACERエージェントを使用する。
  • 環境状態をPE関連メタデータとバイト統計の2350次元特徴ベクトルとして表現する。
  • 検出器に対するブラックボックス攻撃を推進するため、回避時にRを、その他は0をエージェントへ報酬とする。
  • 1ラウンドあたり最大10回の変異を経るサンプルと、モデル訓練あたり合計50,000回の変異を許容するゲーム風設定で運用する。
  • コミュニティ研究を可能にする拡張可能なOpenAI Gym環境とデフォルトACERエージェント実装を公開する。

実験結果

リサーチクエスチョン

  • RQ1ブラックボックス条件下で、RLエージェントがPEファイルの効果的な変異シーケンスを学習して静的マルウェア検出器を回避できるか?
  • RQ2現れる主要な変異戦略は何か、そしてそれらは未知のサンプルへどの程度一般化するか?
  • RQ3将来の回避試みに対して検出器を硬化させるための敵対的学習における回避サンプルの有効性はどれくらいか?
  • RQ4実世界の設定でのRLベースのマルウェア回避の機能性と展開に影響を与える現実的な制約は何か?

主な発見

  • RLエージェントはホールドアウトサンプルで顕著な回避率を達成した:VirusShare 24%、ランサムウェア 12%、Virut 10%、BrowseFox 19%(それぞれランダムポリシーは23%、9%、9%、18%)。”
  • 訓練中に回避バリアントを発見し、50K変異予算の下で2085(VirusShare)、1543(ransomware)、619(Virut)、2444(BrowseFox)の回避を得た。
  • 回避的なランサムウェアサンプルを用いた敵対的訓練は、新たなランサムウェア攻撃に対する回避の有効性を12%から8%に低下させた。
  • このアプローチは機能するPEマルウェア変種を生成でき、モデルの硬化と研究のための実用的な回避サンプルを提供する。
  • OpenAI Gym環境(gym-malware)が公開され、ユーザーモデル、サンプル、およびRLエージェントに対する回避率を研究できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。