[論文レビュー] Decoupling Vision and Language: Codebook Anchored Visual Adaptation
CRAFT は離散コードブックを介して視覚エンコーダのみを微調整し、LVLM をドメイン固有タスクへ適応させることでクロスLLM 転移を再整合なしに実現し、言語能力を維持しつつドメイン精度を向上させます。
Large Vision-Language Models (LVLMs) use their vision encoders to translate images into representations for downstream reasoning, but the encoders often underperform in domain-specific visual tasks such as medical image diagnosis or fine-grained classification, where representation errors can cascade through the language model, leading to incorrect responses. Existing adaptation methods modify the continuous feature interface between encoder and language model through projector tuning or other parameter-efficient updates, which still couples the two components and requires re-alignment whenever the encoder changes. We introduce CRAFT (Codebook RegulAted Fine-Tuning), a lightweight method that fine-tunes the encoder using a discrete codebook that anchors visual representations to a stable token space, achieving domain adaptation without modifying other parts of the model. This decoupled design allows the adapted encoder to seamlessly boost the performance of LVLMs with different language architectures, as long as they share the same codebook. Empirically, CRAFT achieves an average gain of 13.51% across 10 domain-specific benchmarks such as VQARAD and PlantVillage, while preserving the LLM's linguistic capabilities and outperforming peer methods that operate on continuous tokens.
研究の動機と目的
- 大規模ビジョン-言語モデルにおける視覚エンコーダが尾部ドメインで性能を発揮しきれないというドメイン適応の課題を動機付ける。
- 離散コードブックを用いて視覚表現をアンカーとするデカップリングされた適応フレームワークを提案する。
- コードブックを共有する任意の LVLM にプラグインできる離散視覚エンコーダを訓練することでクロス-LLM 転移を可能にする。
- 言語モデルの再訓練を伴わず、軽量な訓練と推論時トークン剪定でドメイン特有の利得を達成する。
提案手法
- 連続的な視覚特徴を固定コードブックへ量子化して離散トークンを得る。
- 代理の整合損失、コミットメント損失、対比損失を組み合わせた複合損失で視覚エンコーダを訓練する(LCRAFT = lambda_con L_con + lambda_commit L_commit + L_SAL)。
- 訓練中に代理言語モデルを用いてトークン選択を導く(L_SAL)。
- 固定コードブックを保持し、バックプロパゲーション時に量子化を通じてストレートスルー推定量を適用する。
- レアリティベースのトークン割当と Token 内部選択を用いた推論時のトークン剪定を適用して、情報量の多いトークンのみを保持する。

実験結果
リサーチクエスチョン
- RQ1離散コードブックのインターフェースは frozen な言語モデルを変更せずに LVLM のドメイン適応を可能にするのか?
- RQ2離散視覚トークンと代理監督信号を組み合わせることは、連続特徴の微調整や PEFT 手法と比較してドメイン固有の推論を改善するのか?
- RQ3同一の離散コードブックを共有するアダプタがある場合、クロス-LLM 転移は実現可能か?
- RQ4推論時トークン剪定がさまざまなドメインで効率と精度に及ぼす影響は?
主な発見
- CRAFT は10のドメイン固有ベンチマークで平均13.51ポイントの改善を達成。
- 離散トークンインターフェースにより再整合なしでクロス-LLM転移を実現し、指示への従いと説明を維持。
- 連続的微調整および PEFT のベースラインと比較して、CRAFT はドメイン特有の理解と推論品質のバランスが良い。
- トークン剪定は推論 FLOPs と待機時間を削減しつつ性能を維持(Keep ratio が約0.8 付近で安定))。
- 小さな代理を用いた訓練でも substantial な gains を達成し、メモリ/時間コストを削減。
- アブレーションにより各損失成分(特に L_SAL および L_con)が性能に寄与することを示す。
- デカップルドな視覚エンコーダ適応はバックボーン間で LLM の再訓練を必要としない。
![Figure 2 : Examples from plant pathology [ 37 ] , medical imaging [ 19 ] , and abstract diagram understanding [ 34 ] are shown using a general continuous LVLM [ 25 ] , its PEFT-tuned variant, and our CRAFT model built on the discrete LVLM [ 51 ] . General LVLM often lacks visual grounding or domain-](https://ar5iv.labs.arxiv.org/html/2602.19449/assets/x2.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。