QUICK REVIEW

[論文レビュー] ADAPT: Hybrid Prompt Optimization for LLM Feature Visualization

João N. Cardoso, Arlindo L. Oliveira|arXiv (Cornell University)|Feb 19, 2026

Data Visualization and Analytics被引用数 0

ひとこと要約

ADAPTはビームサーチ初期化を適応的勾配誘導変異と統合して、LLMの潜在活性化を視覚化するプロンプトを最適化し、Gemma SAE latentで従来手法を上回る。流暢性ペナルティと初期化/軌道が最適化信頼性に与える影響を分析する。

ABSTRACT

Understanding what features are encoded by learned directions in LLM activation space requires identifying inputs that strongly activate them. Feature visualization, which optimizes inputs to maximally activate a target direction, offers an alternative to costly dataset search approaches, but remains underexplored for LLMs due to the discrete nature of text. Furthermore, existing prompt optimization techniques are poorly suited to this domain, which is highly prone to local minima. To overcome these limitations, we introduce ADAPT, a hybrid method combining beam search initialization with adaptive gradient-guided mutation, designed around these failure modes. We evaluate on Sparse Autoencoder latents from Gemma 2 2B, proposing metrics grounded in dataset activation statistics to enable rigorous comparison, and show that ADAPT consistently outperforms prior methods across layers and latent types. Our results establish that feature visualization for LLMs is tractable, but requires design assumptions tailored to the domain.

研究の動機と目的

LLMs におけるターゲット SAE 潜在方向を最大限活性化する入力パターンを識別する方法を理解する。
離散テキスト入力のための実用的で自己完結型のプロンプト最適化手法を開発する。
Gemma 2 2B SAE latent に対してデータセット-活性化指標を用い、ADAPT をベースライン手法と比較評価する。
LLMs の特徴視覚化における初期化・軌道・流暢性ペナルティの役割を調査する。

提案手法

ADAPTの三要素手法を導入する：ビームサーチ初期化、GCG様スワップとロジットスワップを組み合わせた適応変異、そして多様性を保つ評価/選択。
初期化は右追加と中間挿入を含む複数の独立ビームを用いてプロンプト空間を探索する。
候補生成は適応的にサイズを持つ集団と変異、およびトークン変更のバイリンガルアプローチを用いる。
評価には流暢性ペナルティスケジュールとグループ・スロット管理を含め、多様性を維持しつつ高改善のプロンプトを選択する。

実験結果

リサーチクエスチョン

RQ1ADAPTは層やSAE latentタイプを横断して既存手法より一貫して高い潜在活性化を達成できるか。
RQ2初期化・軌道・流暢性ペナルティは特徴視覚化の信頼性と品質にどのように影響するか。
RQ3Gemma 2 2B の SAE latent におけるGCG、BEAST、EPO、ADAPTの相対的強みと故障モードは何か。
RQ4勾配ベースの変異とビームサーチ初期化を組み合わせると、勾配のみ・探索のみのアプローチよりロバストなプロンプトを生み出すか。

主な発見

GCG	BEAST	EPO	ADAPT
–	56.4%	63.2%	29.6%
43.6%	–	50.2%	12.8%
36.8%	49.8%	–	21.4%
70.4%	84.0%	78.6%	–

ADAPTは層と潜在タイプを横断して活性化強度で従来手法を上回る。
ADAPTはGCGに対して70.4%の特徴でより高い活性化を達成（Wilcoxon p < 1e-28）。
GCGとBEASTは補完的な故障モードを示す一方、ADAPTはより一貫したパフォーマンスプロファイルを提供する。
EPOはこの設定でADAPTおよび他のベースラインよりも劣る。
GCGの勾配推定はノイズに対して信号対ノイズ比が不安定であり、多くの良好な候補が勾配により過小評価される一方、ロジットベースの変異はその改善を回復できる。
初期化と軌道はGCGの性能に大きく影響し、自己回帰的開始は通常有利だが、プロンプト内部での変動がなお大きく残る。

Figure 2 : Distribution of top dataset activations for latents 0–49 (by Neuronpedia index) across all layers of Gemma 2 2B.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。