Skip to main content
QUICK REVIEW

[論文レビュー] CLUE: Crossmodal disambiguation via Language-vision Understanding with attEntion

Mouad Abrini, Chetouani, Mohamed|arXiv (Cornell University)|Feb 9, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

CLUEは視覚言語モデルのクロスモーダルアテンションを明示的な空間信号に変換し、インタラクティブ視覚的グラウンディングにおける参照曖昧さを検出して明確化を求めるべきかを判断する。パラメータ効率の LoRA 微調整を InViG で用い、最先端の結果を達成。

ABSTRACT

With the increasing integration of robots into daily life, human-robot interaction has become more complex and multifaceted. A critical component of this interaction is Interactive Visual Grounding (IVG), through which robots must interpret human intentions and resolve ambiguity. Existing IVG models generally lack a mechanism to determine when to ask clarification questions, as they implicitly rely on their learned representations. CLUE addresses this gap by converting the VLM's cross-modal attention into an explicit, spatially grounded signal for deciding when to ask. We extract text to image attention maps and pass them to a lightweight CNN to detect referential ambiguity, while a LoRA fine-tuned decoder conducts the dialog and emits grounding location tokens. We train on a real-world interactive dataset for IVG, and a mixed ambiguity set for the detector. With InViG-only supervision, our model surpasses a state-of-the-art method while using parameter-efficient fine-tuning. Similarly, the ambiguity detector outperforms prior baselines. Overall, CLUE turns the internal cross-modal attention of a VLM into an explicit, spatially grounded signal for deciding when to ask. The data and code are publicly available at: mouadabrini.github.io/clue

研究の動機と目的

  • 視覚シーンで指示が不明瞭であることを検知できる IVG(インタラクティブ視覚的グラウンディング)を動機づける。
  • VLM のクロスモーダルアテンションを空間的で明示的な曖昧性信号へ変換する。
  • シーンの混乱領域を局在化する曖昧性検出器を開発する。
  • 曖昧性検出に guided された明確化対話を通じたエンドツーエンドの IVG を実証する。
  • 実世界データの IVG に対して基準を上回ることを示す、パラメータ効率のよい微調整(LoRA)を実現する。

提案手法

  • 事前学習済み VLM デコーダーからテキスト対画像のクロスアテンションマップを抽出する。
  • 集約アテンションマップ上の軽量 CNN を訓練し、参照曖昧性を検出・空間的に局在化する。
  • LoRA アダプターを用いて Gemma2 ベースのデコーダーを二つのタスク(曖昧性検出と IVG ダイアログのグラウンディング)で微調整する。
  • 特別な条件付けトークン「clarify」を用いて、モデルを明確化質問をするか、グラウンディング場所トークンを出力するかに誘導する。
  • InViG データセット(実世界)を用いて End-to-End IVG を InViG の監視のみで訓練し、最先端手法と比較して評価する。
  • 推論時には曖昧性が検出された場合は明確化質問を生成し、そうでない場合はグラウンディング場所トークンを出力する。
Figure 1: Problem illustration: when an instruction is underspecified, the robot should detect it and ask for clarification (AI generated, then edited)
Figure 1: Problem illustration: when an instruction is underspecified, the robot should detect it and ask for clarification (AI generated, then edited)

実験結果

リサーチクエスチョン

  • RQ1視覚言語モデルのクロスモーダルアテンションマップは、グラウンディングされた指示における参照曖昧性を信頼できる指標にできるか。
  • RQ2アテンションマップ上の CNN ベース曖昧性検出器は、ヒューリスティックやトークンベースの曖昧性信号よりも優れているか。
  • RQ3LoRA 微調整済み VLM はパラメータ効率を維持しつつ競争力のある IVG 性能を達成できるか。
  • RQ4曖昧性信号は分布内データと分布外データ(実世界データ)でどれだけ一般化するか。

主な発見

  • アテンションマップ上の CNN を用いた曖昧性検出器は強い性能を発揮し、Half-Last Detect(CNN)は Dataset 1 で F1=0.846、Dataset 2(OOD)で 0.765 を達成。
  • Half-depth デコーダーの使用は一般化を向上させ、Full-Last Disambig.(AR)は 実世界の OOD データで 0.702 に低下、一方 Half-Full Disambig.(AR)は 0.836 を達成。
  • InViG-のみで微調整した CLUE は IVG タスクで from-scratch に対する最先端のベースラインを上回り、Mix-LoRA 系は InViG で約 75.66% Acc@0.5(TiO の 71.2% に対して)。
  • 物体検出データを用いたプリチューニング(mix)は、スペーシャル priors を提供し、混合 variant でない場合より IVG の性能を向上させる。
  • ゼロショットのベースライン(Gemma 系)は、LoRA 微調整済み CLUE に比べてシミュレーションと実世界データの両方で劣る。
Figure 2: Overall CLUE architecture. An RGB image is encoded by SigLIP and projected by an MLP. The text prefix is tokenized and passed with the image tokens into a Gemma2 decoder equipped with LoRA adapters. The decoder both (i) autoregressively generates clarification questions and (ii) exposes cr
Figure 2: Overall CLUE architecture. An RGB image is encoded by SigLIP and projected by an MLP. The text prefix is tokenized and passed with the image tokens into a Gemma2 decoder equipped with LoRA adapters. The decoder both (i) autoregressively generates clarification questions and (ii) exposes cr

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。