[論文レビュー] SoC: Semantic Orthogonal Calibration for Test-Time Prompt Tuning
SoC は vision-language モデルのテスト時プロンプト微調整で Huber-based 正規化器を導入し、完全直交性法よりも滑らかで意味的に aware なプロンプトプロトタイプ分離と較正を改善しつつ、強い識別性能を維持します。
With the increasing adoption of vision-language models (VLMs) in critical decision-making systems such as healthcare or autonomous driving, the calibration of their uncertainty estimates becomes paramount. Yet, this dimension has been largely underexplored in the VLM test-time prompt-tuning (TPT) literature, which has predominantly focused on improving their discriminative performance. Recent state-of-the-art advocates for enforcing full orthogonality over pairs of text prompt embeddings to enhance separability, and therefore calibration. Nevertheless, as we theoretically show in this work, the inherent gradients from fully orthogonal constraints will strongly push semantically related classes away, ultimately making the model overconfident. Based on our findings, we propose Semantic Orthogonal Calibration (SoC), a Huber-based regularizer that enforces smooth prototype separation while preserving semantic proximity, thereby improving calibration compared to prior orthogonality-based approaches. Across a comprehensive empirical validation, we demonstrate that SoC consistently improves calibration performance, while also maintaining competitive discriminative capabilities.
研究の動機と目的
- テスト時プロンプト微調整(TPT)において較正された不確実性の必要性を動機付ける。
- 意味的に関連するクラスに対する O-TPT の全直交制約の限界を特定する。
- 意味的近接性を保ちながら滑らかなプロトタイプ分離を確保する Hub er-based 正規化器として SoC を提案する。
- プロトタイプの類似性が信頼度と較正をどのように制御するかを理論的に分析する。
- 多様なベンチマークとバックボーンにわたって SoC を実証的に検証し、較正の改善と競合的な精度を示す。
提案手法
- SoC を TPT 損失に追加された Hub er-based 正規化器として定式化し、ペアワイズなプロトタイプ類似度を上限勾配でペナルティ化する。
- sij をクラスプロトタイプ ti と tj のコサイン類似度として定義し、マージン delta を持つ Hub er loss を適用する。
- コサインコヒーレンス μ がソフトマックスの信頼度をどのように制御するかを示す理論的界を導出し、SoC が過度な信頼度の膨張を抑制する様子を説明する。
- SoC と完全直交性 (O-TPT) の一次勾配ダイナミクスを比較して、較正の差異を説明する。
- ViT バックボーンを用いて 11 データセットで評価し、標準的な TPT プロンプトと評価指標(精度とECE)を使用する。
- プロンプトテンプレートへの感度と、異なるバックボーンや分布シフトへのロバスト性を分析する。

実験結果
リサーチクエスチョン
- RQ1Huber-based 正規化器はテスト時のプロンプト微調整において完全直交性よりも較正を改善するか。
- RQ2意味的近接性は異なる正規化器下で信頼度と較正にどのように影響するか。
- RQ3SoC は多様なデータセットとバックボーンにおいて競争力のある識別性能を維持しつつ較正を改善できるか。
- RQ4SoC におけるプロンプトテンプレートの感度は O-TPT と比べてどうか。
- RQ5SoC は分布シフトや多段階のプロンプト更新に対してロバストか。
主な発見
| Model | ImgNet | DTD | Flowers | Food101 | SUN397 | Aircraft | Pets | Caltech | UCF101 | EuroSAT | Cars | Average |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Zero-Shot | 73.5 | 52.4 | 76.2 | 88.6 | 67.7 | 29.9 | 93.1 | 95.1 | 73.8 | 55.0 | 76.8 | 71.1 |
| TPT NeurIPS'22 | 75.6 | 55.3 | 76.3 | 89.0 | 70.2 | 31.8 | 93.6 | 95.5 | 74.9 | 51.9 | 77.8 | 72.0 |
| C-TPT ICLR'24 | 75.0 | 55.1 | 76.5 | 88.9 | 70.1 | 30.9 | 94.1 | 95.5 | 75.2 | 54.0 | 77.5 | 72.1 |
| O-TPT CVPR'25 | 73.2 | 54.6 | 76.4 | 88.6 | 68.9 | 30.0 | 93.8 | 95.3 | 74.5 | 53.6 | 76.7 | 71.4 |
| SoC Ours | 74.5 | 54.4 | 77.0 | 88.9 | 69.5 | 30.9 | 93.9 | 95.6 | 74.9 | 58.3 | 77.0 | 72.3 |
- SoC は 11 データセット全体で TPT、C-TPT、O-TPT と比べて較正(ECE が低い)を一貫して改善する。
- SoC は O-TPT に対してほとんどのデータセットで最良の ECE を達成し、多くの場合ゼロショットの較正に近づく。
- SoC は競争力のある精度を維持し、複数データセット・バックボーンで利得または同等を示す。
- 二段階勾配実験では、SoC は O-TPT よりも反復更新時の較正低下が小さい。
- バックボーンアブレーション(ViT-L/14 と ViT-B/16)では SoC が O-TPT を上回り、精度と ECE の双方で改善、ゼロショットの改善も含む。
- 信頼性図は SoC が対角線に近い平坦な曲線を生み出し、O-TPT よりも良好な較正を反映している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。