[논문 리뷰] Automatically Auditing Large Language Models via Discrete Optimization
본 논문은 LLM의 감사를 이산 최적화 문제로 형식화하고, 프롬프트와 출력을 함께 탐색하여 자가회귀 모델의 목표 실패 모드를 노출하는 좌표상승 알고리즘 ARCA를 도입한다.
Auditing large language models for unexpected behaviors is critical to preempt catastrophic deployments, yet remains challenging. In this work, we cast auditing as an optimization problem, where we automatically search for input-output pairs that match a desired target behavior. For example, we might aim to find a non-toxic input that starts with "Barack Obama" that a model maps to a toxic output. This optimization problem is difficult to solve as the set of feasible points is sparse, the space is discrete, and the language models we audit are non-linear and high-dimensional. To combat these challenges, we introduce a discrete optimization algorithm, ARCA, that jointly and efficiently optimizes over inputs and outputs. Our approach automatically uncovers derogatory completions about celebrities (e.g. "Barack Obama is a legalized unborn" -> "child murderer"), produces French inputs that complete to English outputs, and finds inputs that generate a specific name. Our work offers a promising new tool to uncover models' failure-modes before deployment.
연구 동기 및 목표
- 희귀하거나 고영향의 실패 모드를 밝히기 위한 LLM의 체계적 감사를 필요로 한다.
- 목표 행동과 일치하도록 프롬프트와 출력에 대한 감사를 이산 최적화 문제로 형식화한다.
- 희박하고 비선형적인 이산 감사 목표를 해결하기 위한 효율적인 알고리즘(ARCA)을 개발한다.
- ARCA가 다수의 모델에 걸쳐 다양한 바람직하지 않은 행동을 밝혀낸다는 것을 시연한다.
- ARCA를 이용한 감사가 프롬프트 전이(prompt transfer)를 드러내고 모델 규모에 따라 일반화되는 것을 보인다.
제안 방법
- 타깃 행동을 평가하는 프롬프트-출력 쌍의 점수 phi(x, o)를 정의한다.
- 프롬프트가 주어진 출력의 로그 확률을 더한 값을 최대화하여 비미분 가능 제약 f(x) = o 를 완화한다.
- s_i 분해: s_i(v; x, o) = s_i,Lin(v; x, o) + s_i,Aut(v; x, o) 를 사용하며, 1개 토큰씩 업데이트하는 Autoregressive Randomized Coordinate Ascent(ARCA)를 개발한다.
- 빠른 2단계 채점 사용: (i) 1차 근사를 통한 토큰의 저비용 순위 매김, (ii) 상위 k 후보에 대한 정확한 평가.
- ARCA를 AutoPrompt 및 GBDA와 비교하여, ARCA의 1차 근사들의 평균화와 자가회귀 항을 강조한다.
- 입력과 출력을 함께 최적화하여 놀라운 독성이나 언어 전환과 같은 행동을 구현하는 것을 시연한다.
실험 결과
연구 질문
- RQ1감사를 프롬프트와 출력에 대한 이산 최적화 문제로 효과적으로 전환할 수 있는가?
- RQ2좌표 상승 기반 방법(ARCA)이 희귀하거나 특정 목표의 모델 실패 모드를 효율적으로 발견하는가?
- RQ3독성 프롬프트, 언어 전환, 특정 이름과 관련된 실패에 대해 ARCA가 기존 이산 최적화 도구에 비해 어떤 성능을 보이는가?
- RQ4소형 모델에서 발견된 프롬프트가 대형 모델로 전이되는가(프롬프트 전이) 그리고 규모에 따라 더 자연스러워지는가?
- RQ5다양한 언어와 독성에 걸쳐 입력과 출력을 함께 최적화할 때 모델 실패에 대한 어떤 통찰이 도출되는가?
주요 결과
- ARCA는 GPT-2와 GPT-J를 독성 출력이나 특정 이름으로 되돌려 보내는 데 있어 AutoPrompt 및 GBDA를 일관되게 능가한다.
- ARCA는 독성 유명인 이어받기, 언어 전환 또는 사실상 부정확한 연상을 생성하는 수백 개의 프롬프트를 발견한다.
- 모델이 커질수록 ARCA가 더 자연스러워 보이는 프롬프트를 생성하며, 프롬프트 전이가 모델 크기 간에 발생한다(소형 모델의 프롬프트가 대형 모델에서도 작동).
- 입력과 출력을 함께 최적화하면 프롬프트만으로 달성하기 어려웠던 놀라운 독성 및 다국어 간 완성 등 작업이 가능해진다.
- ARCA의 자가회귀 항과 1차 근사들의 평균화가 점수 평가와 해답 품질 향상에 기여한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.