[논문 리뷰] ADAPT: Hybrid Prompt Optimization for LLM Feature Visualization
ADAPT는 빔-search 초기화와 적응형 gradient-guided mutation을 결합하여 시각화 프롬프트를 최적화하고 Gemma SAE 잠재에서 기존 방법들보다 우수하게 작동합니다. 언어 유창성 패널티와 초기화/경로가 최적화 신뢰도에 미치는 영향을 분석합니다.
Understanding what features are encoded by learned directions in LLM activation space requires identifying inputs that strongly activate them. Feature visualization, which optimizes inputs to maximally activate a target direction, offers an alternative to costly dataset search approaches, but remains underexplored for LLMs due to the discrete nature of text. Furthermore, existing prompt optimization techniques are poorly suited to this domain, which is highly prone to local minima. To overcome these limitations, we introduce ADAPT, a hybrid method combining beam search initialization with adaptive gradient-guided mutation, designed around these failure modes. We evaluate on Sparse Autoencoder latents from Gemma 2 2B, proposing metrics grounded in dataset activation statistics to enable rigorous comparison, and show that ADAPT consistently outperforms prior methods across layers and latent types. Our results establish that feature visualization for LLMs is tractable, but requires design assumptions tailored to the domain.
연구 동기 및 목표
- 목표 입력 패턴을 식별하여 목표 SAE 잠재 방향을 최대한 활성화하는 방법 이해
- 이산 텍스트 입력에 대한 실용적이고 독립적으로 구성된 프롬프트 최적화 방법 개발
- Gemma 2 2B SAE latents에서 데이터세트 활성화 지표를 사용해 ADAPT를 기반 방법과 비교 평가
- LLM의 특징 시각화를 위한 초기화, 경로, 유창성 패널티의 역할 조사
제안 방법
- ADAPT 도입: 빔-search 초기화, GCG 스타일의 교환 및 로짓 교환을 결합한 적응형 변이, 다양성 유지 평가/선택의 세 가지 구성 요소
- 초기화는 프롬프트 공간을 탐색하기 위해 오른쪽 첨부 및 중간 삽입을 가진 다수의 독립 빔 사용
- 후보 생성은 적응적으로 크기를 조정하는 개체군과 변이, 토큰 변경의 이중언어 접근을 사용
- 평가에는 유창성 패널티 스케줄과 그룹-슬롯 관리가 포함되어 다양성을 유지하면서 개선도가 높은 프롬프트를 선택

실험 결과
연구 질문
- RQ1ADAPT가 레이어 및 SAE 잠재 유형에 대해 기존 방법보다 일관되게 더 높은 잠재 활성화를 달성할 수 있는가?
- RQ2초기화, 경로, 유창성 패널티가 LLM의 특징 시각화의 신뢰성과 품질에 어떻게 영향을 미치는가?
- RQ3Gemma 2 2B의 SAE 잠재에서 GCG, BEAST, EPO, ADAPT의 상대적 강점과 실패 모드는 무엇인가?
- RQ4경사 기반 변이와 빔-search 초기화를 결합하면 경사만이나 탐색만 접근법보다 더 견고한 프롬프트를 얻을 수 있는가?
주요 결과
| GCG | BEAST | EPO | ADAPT |
|---|---|---|---|
| – | 56.4% | 63.2% | 29.6% |
| 43.6% | – | 50.2% | 12.8% |
| 36.8% | 49.8% | – | 21.4% |
| 70.4% | 84.0% | 78.6% | – |
- ADAPT는 계층 및 잠재 유형에 걸쳐 활성화 강도 면에서 이전 방법을 상회합니다.
- ADAPT는 GCG에 비해 70.4%의 특징에서 더 높은 활성화를 달성했습니다 (Wilcoxon p < 1e-28).
- GCG와 BEAST는 보완적인 실패 모드를 보이는 반면, ADAPT는 더 일관된 성능 프로파일을 제공합니다.
- EPO는 이 설정에서 ADAPT 및 다른 베이스라인에 비해 저조한 성능을 보입니다.
- GCG의 그래디언트 추정은 노이즈가 많은 신호 대 잡음비를 보이는 반면, 로짓 기반 변이는 이러한 개선을 회복할 수 있습니다.
- 초기화와 경로는 GCG의 성능에 큰 영향을 미치며, 자기회귀 시작은 일반적으로 이점이 있으나 프롬프트 내부의 큰 변동성은 여전히 존재합니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.