[論文レビュー] To Defend Against Cyber Attacks, We Must Teach AI Agents to Hack
要約: 本論文は、攻撃的なAIセキュリティ能力は不可避であり、防御を強化するために開発・統治されるべきだと主張し、ベンチマーク、訓練済みエージェント、および監査済みサイバー範囲内での統制運用を提案する。
For over a decade, cybersecurity has relied on human labor scarcity to limit attackers to high-value targets manually or generic automated attacks at scale. Building sophisticated exploits requires deep expertise and manual effort, leading defenders to assume adversaries cannot afford tailored attacks at scale. AI agents break this balance by automating vulnerability discovery and exploitation across thousands of targets, needing only small success rates to remain profitable. Current developers focus on preventing misuse through data filtering, safety alignment, and output guardrails. Such protections fail against adversaries who control open-weight models, bypass safety controls, or develop offensive capabilities independently. We argue that AI-agent-driven cyber attacks are inevitable, requiring a fundamental shift in defensive strategy. In this position paper, we identify why existing defenses cannot stop adaptive adversaries and demonstrate that defenders must develop offensive security intelligence. We propose three actions for building frontier offensive AI capabilities responsibly. First, construct comprehensive benchmarks covering the full attack lifecycle. Second, advance from workflow-based to trained agents for discovering in-wild vulnerabilities at scale. Third, implement governance restricting offensive agents to audited cyber ranges, staging release by capability tier, and distilling findings into safe defensive-only agents. We strongly recommend treating offensive AI capabilities as essential defensive infrastructure, as containing cybersecurity risks requires mastering them in controlled settings before adversaries do.
研究の動機と目的
- 自律AIエージェントによる攻撃的セキュリティ知能を取り入れたサイバー防御への転換を動機づける。
- AIエージェントが多くのターゲットに対して脆弱性発見と悪用を自動化できる点を強調する。
- 攻撃的AI能力を安全に展開・開発・認証済みサイバー範囲内で統治するためのベンチマーク付けとフレームワークを提案する。
提案手法
- 財務動機のある敵対者がSOTA AIエージェントを用いて大規模な攻撃を自動化する脅威モデルを形式化する。
- データガバナンス、安全性整合性、表現設計、ガードレールなど既存の防御的安全策の限界を分析する。
- 総合的な攻撃ライフサイクルのベンチマーク、ワークフローから訓練済みエージェントへの進化、監査済みサイバー範囲による統治という三本柱の frontier Offensive Security フレームワークを提案する。

実験結果
リサーチクエスチョン
- RQ1自律型AIエージェントは大規模なサイバーセキュリティにどのようなリスクをもたらすか。
- RQ2攻撃的AI能力をどう開発・統治すれば乱用を防ぎ、防御に寄与できるか。
- RQ3安全で防御的な攻撃AIを実現するために必要なベンチマークと開発段階は何か。
主な発見
- 攻撃的AI能力は攻撃の限界費用を下げ、長尾ターゲットに対するスケーラブルな悪用を可能にする。
- 現在の防御的安全策は適応的で主体性を持つ攻撃者には脆弱で、オープンウェイトやセルフホストモデルによって回避され得る。
- 全攻撃ライフサイクルと動的環境を網羅する frontier Offensive Security ベンチマークの必要性。
- 段階的リリース統治モデルは攻撃能力を監査済みサイバー範囲内に限定し、知見を防御専用アーティファクトへと蒸留する。
- 攻撃的セキュリティ知識は脆弱性を明らかにし迅速な是正を促すことで防御を加速させ得る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。