[논문 리뷰] Tracking Capabilities for Safer Agents
논문은 추적된 능력을 사용하는 Scala 3 기반 안전 허브인 tacit를 제안합니다. 이는 AI 에이전트의 도구 사용을 제약하고 정보 누출과 안전하지 않은 부작용을 방지하는 동시에 표현력을 유지합니다.
AI agents that interact with the real world through tool calls pose fundamental safety challenges: agents might leak private information, cause unintended side effects, or be manipulated through prompt injection. To address these challenges, we propose to put the agent in a programming-language-based "safety harness": instead of calling tools directly, agents express their intentions as code in a capability-safe language: Scala 3 with capture checking. Capabilities are program variables that regulate access to effects and resources of interest. Scala's type system tracks capabilities statically, providing fine-grained control over what an agent can do. In particular, it enables local purity, the ability to enforce that sub-computations are side-effect-free, preventing information leakage when agents process classified data. We demonstrate that extensible agent safety harnesses can be built by leveraging a strong type system with tracked capabilities. Our experiments show that agents can generate capability-safe code with no significant loss in task performance, while the type system reliably prevents unsafe behaviors such as information leakage and malicious side effects.
연구 동기 및 목표
- 현실 세계에서 도구 및 데이터와 상호 작용할 때의 안전 위험을 동기 부여합니다.
- 타입 시스템을 통해 접근 및 효과를 추적하는 능력 기반의 안전 허브를 제안합니다.
- 능력 추적이 정보 누출 및 안전하지 않은 부작용에 대한 정적 보장을 가능하게 함을 보여줍니다.
- 실용적 구현(tacit)을 시연하고 LLM이 생성한 코드로 안전성과 표현력을 평가합니다.
제안 방법
- 타입이 값이 포착할 수 있는 능력의 집합을 인코딩하는 Scala 3의 추적된 능력을 도입합니다.
- 민감한 데이터를 래핑하고 능력 인식 맵 연산을 통해 순수한 변환을 강제하는 Classified 컨테이너를 정의합니다.
- 다_turn 간의 능력 추적을 보장하기 위해 능력-안전 인터페이스와 안전 모드 컴파일러를 갖춘 안전 허브(tacit)을 사용합니다.
- 파일, 프로세스 및 네트워크와의 모든 상호 작용이 유한 기간의 범위를 갖는 능력 라이브러리를 통해 처리되도록 런타임 및 API 디자인을 제공합니다.
- 일반 채널은 에이전트 피드백에, 보안 채널은 인간 사용자를 위한 두 채널 출력 모델을 구현하여 분류된 내용이 에이전트의 맥락으로 누출되지 않도록 보장합니다.
- 프롬프트 주입 공격에 대한 엔드 투 엔드 안전 벤치마크를 통해 평가하고 에이전트성 벤치마크에서 표현력을 평가합니다.
실험 결과
연구 질문
- RQ1RQ1: 타입 시스템이 적대적 조건하에서도 정보 누출 및 무단 부작용과 같은 위험한 에이전트 동작을 신뢰성 있게 예방합니까?
- RQ2RQ2: 에이전트가 일반 도구 호출 인터페이스와 비교해 작업 성능의 손실 없이 능력-안전 코드를 생성할 수 있습니까?
주요 결과
- 분류 모드에서 타입 시스템은 테스트된 모델 및 작업 전반에 걸친 모든 주입 및 탈출 시도를 차단합니다(100% 보안).
- 분류 모드에서 작업 유틸리티는 여전히 높게 유지됩니다(Claude Sonnet 4.6 ≈ 99.2%, MiniMax M2.5 ≈ 90.0%).
- 비분류 모드에서 보안은 모델 정렬에 따라 달라지며 덜 정렬된 모델에서 일부 누출이 관찰됩니다(예: 악의적 작업에서 MiniMax M2.5 27.3% 누출).
- 해당 접근 방식은 CaMeL 벤치마크와 유사한 보안과 도메인 전반에 걸친 유사한 유용성을 가진 Stock AgentDojo 도메인에도 일반화됩니다.
- 실험은 Typed, 능력-안전 코드가 여러 벤치마크(τ2-bench)에서 전통적인 tool-ccalling의 성능과 일치하거나 초과하고 SWE-bench Lite에서도 경쟁력을 보임을 보여줍니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.