Skip to main content
QUICK REVIEW

[論文レビュー] Autonomous Penetration Testing using Reinforcement Learning

Jonathon Schwartz, Hanna Kurniawati|arXiv (Cornell University)|May 15, 2019
Advanced Malware Detection Techniques参考文献 37被引用数 62
ひとこと要約

本論文は、モデルフリー強化学習を自動化されたペンテストに適用する問題を、速いシミュレータを構築し、environment models なしで simulated networks における攻撃経路を見つけるために Q-learning (tabular and neural network) を評価することによって探る。

ABSTRACT

Penetration testing (pentesting) involves performing a controlled attack on a computer system in order to assess it's security. Although an effective method for testing security, pentesting requires highly skilled practitioners and currently there is a growing shortage of skilled cyber security professionals. One avenue for alleviating this problem is automate the pentesting process using artificial intelligence techniques. Current approaches to automated pentesting have relied on model-based planning, however the cyber security landscape is rapidly changing making maintaining up-to-date models of exploits a challenge. This project investigated the application of model-free Reinforcement Learning (RL) to automated pentesting. Model-free RL has the key advantage over model-based planning of not requiring a model of the environment, instead learning the best policy through interaction with the environment. We first designed and built a fast, low compute simulator for training and testing autonomous pentesting agents. We did this by framing pentesting as a Markov Decision Process with the known configuration of the network as states, the available scans and exploits as actions, the reward determined by the value of machines on the network. We then used this simulator to investigate the application of model-free RL to pentesting. We tested the standard Q-learning algorithm using both tabular and neural network based implementations. We found that within the simulated environment both tabular and neural network implementations were able to find optimal attack paths for a range of different network topologies and sizes without having a model of action behaviour. However, the implemented algorithms were only practical for smaller networks and numbers of actions. Further work is needed in developing scalable RL algorithms and testing these algorithms in larger and higher fidelity environments.

研究の動機と目的

  • サイバーセキュリティの専門家不足に対応するため、自動化ペンテストを動機づける。
  • ペンテストのためのモデルベースの計画の代替として、モデルフリーRLを調査する。
  • ペンテストをマルコフ決定過程として位置づける、速く計算コストの低いシミュレーターを開発する。
  • 最適な攻撃経路を発見するための Q-learning (tabular and neural network) を評価する。
  • より大規模で高忠実度の環境に対するスケーラビリティの限界と今後の方向性を特定する。

提案手法

  • 状態としてネットワーク構成を用いた自律ペンテストのための高速シミュレータの設計。
  • スキャンとエクスploitをアクションとする、ペンテストをマルコフ決定過程として定式化。
  • アクション行動のモデルを持たずにポリシーを学習するため、モデルフリーRL、特にQ-learningを適用。
  • シミュレータ内でのQ-learningのtabularとニューラルネットワーク実装の比較。
  • 異なるネットワークトポロジーとサイズにわたる性能の評価。
  • より大きなアクション空間とネットワークに対する実用性の限界についての議論。

実験結果

リサーチクエスチョン

  • RQ1事前に定義された環境モデルなしに、モデルフリー強化学習は最適なペンテストポリシーを学習できるか?
  • RQ2tabular および neural-network ベースのQ-learningアプローチは、自動化ペンテストにおいて現実的なネットワークサイズにスケールできるか?
  • RQ3スケーラビリティと忠実度の観点から、現行のペンテスト用RL手法の限界は何か?
  • RQ4シミュレータフレームワークは、異なるネットワーク構成と攻撃の評価をどのように支援するか?

主な発見

  • 検討されたシミュレート環境の中で、tabular と neural-network Q-learning の両方が最適な攻撃経路を特定できる。
  • RLベースのエージェントは、アクション挙動をモデル化せずに効果的なポリシーを学習した。
  • 小規模なネットワークとアクション数では有望だが、より大規模で複雑な設定にはスケーラビリティと実用性の課題がある。
  • 本研究は、スケーラブルなRLアルゴリズムと高忠実度のテスト環境の必要性を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。