Skip to main content
QUICK REVIEW

[論文レビュー] Leveraging Data to Say No: Memory Augmented Plug-and-Play Selective Prediction

Aditya Sarkar, Yi (Joy) Li|arXiv (Cornell University)|Jan 30, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

要約: 本論文は MA-PaPSP を提案する。これはメモリ増強型・トレーニング不要の選択予測手法で、リトリーバルベースのプロキ embeddings とコントラスト正規化を用いてオープンセットの選択予測を改善するため、任意の vision-language モデルに取り付けられる。

ABSTRACT

Selective prediction aims to endow predictors with a reject option, to avoid low confidence predictions. However, existing literature has primarily focused on closed-set tasks, such as visual question answering with predefined options or fixed-category classification. This paper considers selective prediction for visual language foundation models, addressing a taxonomy of tasks ranging from closed to open set and from finite to unbounded vocabularies, as in image captioning. We seek training-free approaches of low-complexity, applicable to any foundation model and consider methods based on external vision-language model embeddings, like CLIP. This is denoted as Plug-and-Play Selective Prediction (PaPSP). We identify two key challenges: (1) instability of the visual-language representations, leading to high variance in image-text embeddings, and (2) poor calibration of similarity scores. To address these issues, we propose a memory augmented PaPSP (MA-PaPSP) model, which augments PaPSP with a retrieval dataset of image-text pairs. This is leveraged to reduce embedding variance by averaging retrieved nearest-neighbor pairs and is complemented by the use of contrastive normalization to improve score calibration. Through extensive experiments on multiple datasets, we show that MA-PaPSP outperforms PaPSP and other selective prediction baselines for selective captioning, image-text matching, and fine-grained classification. Code is publicly available at https://github.com/kingston-aditya/MA-PaPSP.

研究の動機と目的

  • 選択予測をオープンセットの vision-language タスクへ拡張する(例:キャプション生成、ITM、細分類)。
  • 任意の VLM に取り付けられる軽量で訓練不要のモジュールを提供し、キャリブレーションされた信頼度スコアを生成する。
  • PaPSP に用いられる外部 VLRM の埋め込みの安定性低下とスコアのキャリブレーション誤差を低減する。
  • キャプション生成、ITM、分類を含む複数データセットとファウンデーションモデルでの利得を実証する。

提案手法

  • 予測VLM(P-VLM)に対して、共有埋め込み空間を持つ外部 SP-VLM を用いてプラグアンドプレイ型の選択予測モジュール PaPSP を接続する。
  • 近傍平均化による代理埋め込み(プロキ埋め込み)を形成するため、リトリーバルデータセットから画像-テキスト対を取得することでメモリ増強を導入する。
  • クエリと予測キャプションの類似度を硬いネガティブと比較して正規化するコントラストスコアを計算し、キャリブレーションを改善する(コントラスト正規化)。
  • 表1に要約されたクエリ・プロキ・スコアタイプのバリアントを使用し、プロキ埋め込み(式6)とコントラスト scoring(式8)の方程式を示す。
  • 平常の CLIP 風スコアを代理ベースあるいはコントラストスコアに置換して、不安定性とキャリブレーションの問題に対処することが可能(図2と図3)。
  • MA-PaPSP を、複数の P-VLM およびデータセットに対して、選択キャプション、画像-テキストマッチ、分類で評価する。
Figure 1: PaPSP uses an external representation model and the CLIP score to enable selective prediction for VLM tasks like captioning without training. MA-PaPSP augments this model with an external dataset, which is leveraged to estimate proxy embeddings of greater stability and better calibrated co
Figure 1: PaPSP uses an external representation model and the CLIP score to enable selective prediction for VLM tasks like captioning without training. MA-PaPSP augments this model with an external dataset, which is leveraged to estimate proxy embeddings of greater stability and better calibrated co

実験結果

リサーチクエスチョン

  • RQ1PaPSP をトレーニングなしでオープンセット・語彙拡張タスクへどのように拡張できるか?
  • RQ2リトリーバルとコントラスト正規化によるメモリ増強は SP-VLM の埋め込みを安定化させ、スコアのキャリブレーションを可能にするか?
  • RQ3MA-PaPSP の効果は、キャプション生成、ITM、分類という異なるタスクタイプおよびさまざまな P-VLM/SP-VLM 構成で維持されるか?
  • RQ4リトリーバルデータセットのタイプ(ドメイン内、ドメイン外、混合)が選択予測性能に与える影響は?
  • RQ5MA-PaPSP は選択予測の際、LLM ベースのジャッジよりも効率的か?

主な発見

  • MA-PaPSP は複数データセットにおいて、キャプション生成、ITM、分類のいずれでも PaPSP を一貫して上回る。
  • 一般により大きな SP-VLM は性能が良く、MA-PaPSP の利得はモデルサイズの増加とともに大きくなる。
  • オープンセットタスク(キャプション生成・ITM など)では、ドメイン外および混合リトリーバルデータが、ドメイン内データより強い改善をもたらす傾向がある。
  • 小型の SP-VLM で MA-PaPSP を用いると、遥かに大きな SP-VLM を用いた PaPSP を上回ることがあり、効率性の利点を示す。
  • 提案されたコントラストスコアは、SP-VLM 埋め込み空間全体で非コントラスト系スコアよりも安定したキャリブレーション済みの信頼度を生む。
  • リトリーバルで強化された代理埋め込みは表現の不安定性を低減し、選択予測の信頼性を向上させる。
Figure 2: Left: VLM problems. a) instability of representations: the representations of images (orange) and texts (blue) of the same concept can vary significantly, leading to unreliable similarity scores. b) poor calibration: distances between concepts of identical similarity (red ellipses) vary ac
Figure 2: Left: VLM problems. a) instability of representations: the representations of images (orange) and texts (blue) of the same concept can vary significantly, leading to unreliable similarity scores. b) poor calibration: distances between concepts of identical similarity (red ellipses) vary ac

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。