QUICK REVIEW

[논문 리뷰] SoK: DARPA's AI Cyber Challenge (AIxCC): Competition Design, Architectures, and Lessons Learned

Cen Zhang, Younggi Park|arXiv (Cornell University)|2026. 02. 07.

Adversarial Robustness in Machine Learning인용 수 0

한 줄 요약

본 SoK은 DARPA의 AIxCC 최종 대회(AFC 2023–2025)를 분석하고, 설계 결정, CRS 아키텍처, 결과 및 향후 자동 취약점 발견과 패치 연구를 위한 시사점을 상세히 다룬다.

ABSTRACT

DARPA's AI Cyber Challenge (AIxCC, 2023--2025) is the largest competition to date for building fully autonomous cyber reasoning systems (CRSs) that leverage recent advances in AI -- particularly large language models (LLMs) -- to discover and remediate vulnerabilities in real-world open-source software. This paper presents the first systematic analysis of AIxCC. Drawing on design documents, source code, execution traces, and discussions with organizers and competing teams, we examine the competition's structure and key design decisions, characterize the architectural approaches of finalist CRSs, and analyze competition results beyond the final scoreboard. Our analysis reveals the factors that truly drove CRS performance, identifies genuine technical advances achieved by teams, and exposes limitations that remain open for future research. We conclude with lessons for organizing future competitions and broader insights toward deploying autonomous CRSs in practice.

연구 동기 및 목표

AIxCC가 오픈 소스 소프트웨어에서 자동 취약점 발견과 패치를 안내하고 평가하도록 설계된 방식을 평가한다.
결승 팀 사이버 추론 시스템(CRS)의 아키텍처적 및 기술적 접근 방식을 특징지운다.
최종 점수표를 넘어 대회의 결과를 분석하여 실제 성능의 동인과 한계를 식별한다.
향후 대회를 조직하고 실제로 자율 CRS를 배포하기 위한 실행 가능한 시사점을 도출한다.
대회 결과를 연구 가치와 업계 배치 고려사항으로 전환하는 데 필요한 지침을 제공한다.

제안 방법

AFC 설계 문서, 7개 결승 CRS의 코드베이스, 주최 측 대회 데이터베이스(도전 과제, 결과, 트레이스)의 체계적 분석.
주최 측 및 결승 팀과의 토론을 통해 기술적 접근 방식의 교차 검증.
Per-CPV(도전 과제 취약점) 주석화 및 제어된 설정에서 기초적 취약점 발견 및 패치 기술과의 비교.
대회 설계 및 CRS 배치에 대한 교훈과 향후 방향의 종합.

Figure 1 : AFC workflow. GitHub webhooks trigger challenge dispatch and CRSs submit results via the Competition API. Each CRS operates in an isolated network with access to the Competition API, build dependencies, and LLM endpoints.

실험 결과

연구 질문

RQ1RQ1: AIxCC는 AI 기반 취약점 발견 및 패치를 안내하고 평가하도록 어떻게 설계되어 있는가?
RQ2RQ2: 결승 팀이 어떤 아키텍처적 및 기술적 접근 방식을 채택했는가?
RQ3RQ3: 대회 결과에서 어떤 인사이트가 도출되는가?
RQ4RQ4: 대회를 조직하고 자율 CRS를 배치하는 데 필요한 시사점과 향후 방향은 무엇인가?

주요 결과

AIxCC는 실제 OSS 내장 워크플로우(전체 스캔, 델타 스캔, SARIF 검토 및 보고서 합성)를 시간 감쇠 점수와 결합하여 발견과 패치 품질의 균형을 맞춘다.
7개의 결승 CRS 중 안정성과 정확도가 성능의 주요 결정 요인이었으며, AT가 단계 전반에 걸친 지속적 활동으로 총점이 가장 높았다.
팀들은 보완적 PoV 파이프라인 두 가지(퍼징 강화와 LLM 기반 PoV 생성)를 사용했고 패치 생성 아키텍처를 다양화했다(다중 아키텍처 앙상블, 다중 에이전트 대 다중 에이전트 설계 대 단일 에이전트 설계).
SARIF 검증 전략은 PoV 중심, LLM-판정 중심, 버그 후보 중심 등으로 다양했으며, 보고서와 검증이 점수에 기여하는 방식에 영향을 미쳤다.
번들링 전략은 PoV, 패치, SARIF 평가를 연결하여 일관된 취약점 보고서를 가능하게 했지만 잘못된 조합에 대한 벌점을 위험에 노출했다.
최종 결과는 Java CPVs가 의미 있는 비교를 이끌었고, TI가 강력한 PoV 점수를 달성했고, AT는 패칭과 번들링에서 두각을 나타냈으며, AC의 안정성과 정확성이 경쟁 결과를 크게 좌우했다.

Figure 2 : Score per time (top) and phase (bottom) axes.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.