[논문 리뷰] Improving Alignment and Robustness with Circuit Breakers
본 논문은 해로운 출력을 LLM 및 에이전트에서 단절하는 표현 기반 방어인 회로 차단기(circuit breakers)를 도입하여 정렬 및 강건성을 개선하고, 유용성의 큰 손실 없이 unseen 공격에 대한 일반화를 달성하며 텍스트 및 다중 모달 설정에 확장된다.
AI systems can take harmful actions and are highly vulnerable to adversarial attacks. We present an approach, inspired by recent advances in representation engineering, that interrupts the models as they respond with harmful outputs with "circuit breakers." Existing techniques aimed at improving alignment, such as refusal training, are often bypassed. Techniques such as adversarial training try to plug these holes by countering specific attacks. As an alternative to refusal training and adversarial training, circuit-breaking directly controls the representations that are responsible for harmful outputs in the first place. Our technique can be applied to both text-only and multimodal language models to prevent the generation of harmful outputs without sacrificing utility -- even in the presence of powerful unseen attacks. Notably, while adversarial robustness in standalone image recognition remains an open challenge, circuit breakers allow the larger multimodal system to reliably withstand image "hijacks" that aim to produce harmful content. Finally, we extend our approach to AI agents, demonstrating considerable reductions in the rate of harmful actions when they are under attack. Our approach represents a significant step forward in the development of reliable safeguards to harmful behavior and adversarial attacks.
연구 동기 및 목표
- 해로운 출력을 출력 계층이나 입력 계층가 아니라 내부 표현 계층에서 직접 억제하는 방어를 모티브로 삼는다.
- 큰 유용성 손실 없이 일반적이고 공격에 구애받지 않는 메커니즘을 개발한다.
- 다양하고 unseen 공격 하에서 텍스트 전용 LLM, 다중 모달 모델, 및 AI 에이전트에 걸친 효과를 입증한다.
- 다중 모달 입력 및 에이전트 안전 시나리오로의 확장을 보여준다.
제안 방법
- 해로운 출력 표현과 회로 차단기를 연결하기 위해 Representation Engineering (RepE) 기반으로 접근 방식을 확립한다.
- 생성된 해로운 표현을 생산적 방향에서 벗어나게 재매핑하는 LoRA 기반 회로 차단기 모델(LoRRA)을 사용한 Representation Rerouting (RR)을 도입한다.
- rerouting 및 유지 표현을 학습하기 위해 Circuit Breaker Set과 Retain Set으로 분할된 회로 차단기 데이터세트를 정의한다.
- 원래 표현과 회로 차단된 해로운 표현 간 코사인 유사성을 최소화하는 rerouting 손실과 양성 표현을 보존하는 retain 손실의 두 가지 손실을 사용한다.
- 초기에는 rerouting을 점진적으로 강조하고 나중에 유지성을 강화하는 일정으로 결합 손실을 최적화한다.
- 이 방법을 LLMS(Mistral-7B-Instruct-v2, Llama-3-8B-Instruct), 다중모달 모델(LLaVA-NeXT-Mistral-7B), 및 에이전트(함수 호출 시나리오)에 적용한다.

실험 결과
연구 질문
- RQ1회로 차단기가 unseen 공격 하에서 표준 기능의 큰 저하 없이 유해 출력 준수를 감소시킬 수 있는가?
- RQ2회로 차단기가 다중 모달 입력 및 적대적 이미지 기반 공격으로 일반화되는가?
- RQ3이 접근법이 에이전트의 작동을 유지하면서 유해한 동작을 완화할 수 있는가?
주요 결과
- RR은 테스트된 LLM에서 평균 약 87%(Mistral) 및 90%(Llama-3) 수준의 해로운 출력 준수를 감소시킨다.
- 회로 차단기 활성화 모델은 제안된 테스트에서 성능 저하가 1% 미만으로 최소한의 기능 손실을 보인다.
- 다중모달 설정에서 RR은 화이트박스 PGD 공격 하에서 큰 안전성 향상을 보이고 MMMU 및 LLaVA-Wild 기능은 원래의 약 0.5% 이내로 유지한다.
- Cygnet은 강한 공격 하에서 해로운 출력이 약 두 자릿수 감소를 달성하는 Llama-3-8B-Instruct 파인튜닝이다.
- RR은 AI 에이전트로 확장되어 악의적 압력 하에서도 해로운 함수 호출 준수를 크게 감소시키고 Berkeley Function Calling Leaderboard 성능을 유지한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.