Skip to main content
QUICK REVIEW

[논문 리뷰] To Defend Against Cyber Attacks, We Must Teach AI Agents to Hack

Terry Yue Zhuo, Yangruibo Ding|arXiv (Cornell University)|2026. 02. 01.
Adversarial Robustness in Machine Learning인용 수 0
한 줄 요약

이 논문은 공격적 AI 보안 능력이 불가피하며 방어를 개선하기 위해 개발되고 관리되어야 한다고 주장하고, 벤치마크, 학습된 에이전트, 그리고 감사된 사이버 레인지 내의 통제된 배치를 제안한다.

ABSTRACT

For over a decade, cybersecurity has relied on human labor scarcity to limit attackers to high-value targets manually or generic automated attacks at scale. Building sophisticated exploits requires deep expertise and manual effort, leading defenders to assume adversaries cannot afford tailored attacks at scale. AI agents break this balance by automating vulnerability discovery and exploitation across thousands of targets, needing only small success rates to remain profitable. Current developers focus on preventing misuse through data filtering, safety alignment, and output guardrails. Such protections fail against adversaries who control open-weight models, bypass safety controls, or develop offensive capabilities independently. We argue that AI-agent-driven cyber attacks are inevitable, requiring a fundamental shift in defensive strategy. In this position paper, we identify why existing defenses cannot stop adaptive adversaries and demonstrate that defenders must develop offensive security intelligence. We propose three actions for building frontier offensive AI capabilities responsibly. First, construct comprehensive benchmarks covering the full attack lifecycle. Second, advance from workflow-based to trained agents for discovering in-wild vulnerabilities at scale. Third, implement governance restricting offensive agents to audited cyber ranges, staging release by capability tier, and distilling findings into safe defensive-only agents. We strongly recommend treating offensive AI capabilities as essential defensive infrastructure, as containing cybersecurity risks requires mastering them in controlled settings before adversaries do.

연구 동기 및 목표

  • 자율 AI 에이전트에 의해 구동되는 공격적 보안 인텔리전스를 포함하도록 사이버 방어의 방향을 전환하도록 동기를 부여한다.
  • 다수의 대상에 걸쳐 취약점 발견과 악용을 대규모로 자동화할 수 있는 AI 에이전트를 강조한다.
  • 공격적 AI 능력을 핵심 방어 인프라로서 벤치마킹, 개발, 안전하게 배치하기 위한 프레임워크를 제안한다.

제안 방법

  • 재정적 이익을 추구하는 적대자가 SOTA AI 에이전트를 사용해 대규모로 공격을 자동화하는 위협 모델을 형식화한다.
  • 데이터 거버넌스, 안전 정합성, 표현 엔지니어링, 가드레일 등 기존 방어적 안전장치의 한계를 분석한다.
  • 종합적인 공격 수명주기 벤치마크, 워크플로에서 학습된 에이전트로의 진화, 감사된 사이버 레인지를 통한 거버넌스를 포함하는 프런티어 공격 보안을 위한 3축 프레임워크를 제안한다.
Figure 1 : Matching AI Attack Scale Requires Autonomous Offensive Security Capabilities. Left : AI agents enable economically viable attacks through parallelization. Right : Both AI agents and humans can perform offensive or defensive operations, but only offensive AI agents can match the predictabi
Figure 1 : Matching AI Attack Scale Requires Autonomous Offensive Security Capabilities. Left : AI agents enable economically viable attacks through parallelization. Right : Both AI agents and humans can perform offensive or defensive operations, but only offensive AI agents can match the predictabi

실험 결과

연구 질문

  • RQ1자율 AI 에이전트가 대규모 사이버 보안에 어떤 위험을 도입하는가?
  • RQ2오용을 가능하게 하기보다 방위를 이익으로 삼도록 공격적 AI 능력을 어떻게 개발하고 관리할 수 있는가?
  • RQ3사이버 보안에서 안전하고 방어적인 공격적 AI를 실현하기 위해 필요한 벤치마크와 개발 단계는 무엇인가?

주요 결과

  • 공격적 AI 능력은 공격의 한계비용을 줄여 길고-tail 대상에 걸친 확장 가능한 악용을 가능하게 한다.
  • 현행 방어 안전장치는 적응적이고 에이전트적 공격자에 취약하며 공개 가중치(Open-weight) 또는 자체 호스팅 모델로 우회될 수 있다.
  • 전체 공격 수명주기와 동적인 환경을 다루는 최전선 공격 보안 벤치마크가 필요하다.
  • 단계적 공개 거버넌스 모델은 감사된 사이버 레인지 내에서 공격적 능력을 억제하고 방어 전용 산출물로 해석할 수 있다.
  • 공격적 보안 인텔리전스는 취약점을 밝히고 신속한 대응을 알리는 방식으로 방어를 가속화할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.