[論文レビュー] Fine-grained Late-interaction Multi-modal Retrieval for Retrieval Augmented Visual Question Answering
FLMR はトークンレベルの多モーダル late-interaction 検索を RA-VQA に導入し、知識検索のリコールを改善し、中程度のモデルサイズで OK-VQA において強力な VQA パフォーマンスを達成します。
Knowledge-based Visual Question Answering (KB-VQA) requires VQA systems to utilize knowledge from external knowledge bases to answer visually-grounded questions. Retrieval-Augmented Visual Question Answering (RA-VQA), a strong framework to tackle KB-VQA, first retrieves related documents with Dense Passage Retrieval (DPR) and then uses them to answer questions. This paper proposes Fine-grained Late-interaction Multi-modal Retrieval (FLMR) which significantly improves knowledge retrieval in RA-VQA. FLMR addresses two major limitations in RA-VQA's retriever: (1) the image representations obtained via image-to-text transforms can be incomplete and inaccurate and (2) relevance scores between queries and documents are computed with one-dimensional embeddings, which can be insensitive to finer-grained relevance. FLMR overcomes these limitations by obtaining image representations that complement those from the image-to-text transforms using a vision model aligned with an existing text-based retriever through a simple alignment network. FLMR also encodes images and questions using multi-dimensional embeddings to capture finer-grained relevance between queries and documents. FLMR significantly improves the original RA-VQA retriever's PRRecall@5 by approximately 8\%. Finally, we equipped RA-VQA with two state-of-the-art large multi-modal/language models to achieve $\sim61\%$ VQA score in the OK-VQA dataset.
研究の動機と目的
- KB-VQA の知識検索における画像理解の不完全さに対処する。
- 単一埋め込み DPRスタイル検索による情報喪失を、トークンレベルの多次元埋め込みを用いて緩和する。
- テキストベースの画像表現を補完するために、整列した Vision-Model の視覚トークンを組み込む。
- late interaction による細粒度のクロスモーダル関連性を実現して PRRecall@5 と VQA 精度を向上させる。
提案手法
- クエリと文書のテキスト表現と視覚表現を生成するために二つのエンコーダを使用する。
- 画像をテキストベースの Vision(キャプション/オブジェクト)と特徴ベースの Vision(グローバル/ROI 特徴)の双方で表現し、マッピングネットワークで整列させる。
- トークンレベルの埋め込みを計算し、クエリと文書の全トークンペアに跨る多モーダル late interaction スコアを適用する。
- 視覚トークンを言語モデル空間へ投影するための Vision-Language アライメント・マッピングネットワークを訓練する(F_V と F_L を整列させる CLIP ライクな事前訓練)。
- 同一バッチ内対比損失で文書検索(PRRecall@K)を最適化し、PLAID で高速な late-interaction 検索を実現する。
- 方程式にはトークンレベル埋め込み Q および D、マッピング F_M、late interaction r(q,d) = sum_i max_j Q_i D_j^T、訓練には Eq. 4 にある L_CL を使用。
実験結果
リサーチクエスチョン
- RQ1細粒度のトークンレベルのクロスモーダル相互作用は、1 次元埋め込みよりも KB-VQA の知識検索を改善するか。
- RQ2テキストベースのビジョンに加えて整列された Vision モデル表現を追加することで、検索と下流の VQA パフォーマンスは改善されるか。
- RQ3ROI の粒度が late-interaction 多モーダル検索を用いた場合、検索と VQA にどのような影響を与えるか。
- RQ4提案するアライメント訓練は OK-VQA 以外のデータセットでも効率的かつ有益か。
- RQ5多モーダル・トークンを統合した場合、late interaction が PRRecall@K および VQA スコアに与える影響はどれくらいか。
主な発見
| # | モデル | ベースモデル | K | 知識ソース | R@5 | R@10 | EM | VQA | |
|---|---|---|---|---|---|---|---|---|---|
| 1 | ConceptBERT | - | - | C | - | - | - | 33.66 | |
| 2 | KRISP | - | - | C + W | - | - | - | 38.35 | |
| 3 | VRR | - | 100 | GS | - | - | - | 45.08 | |
| 4 | MAVEx | - | - | W + C + GI | - | - | - | 39.40 | |
| 5 | KAT-T5 | T5-large | 40 | W | - | - | - | 44.25 | |
| 6 | TRiG-Ensemble | T5-large | 100 | W | - | - | - | 54.73 | |
| 7 | RA-VQA (joint training) | T5-large | 50 | GS | 82.84 | - | - | 59.41 | 54.48 |
| 8 | RA-VQA | T5-large | 5 | GS | 81.25 | - | - | 51.22 |
- FLMR はオリジナルの RA-VQA リトリーバーより PRRecall@5 を約8% 改善。
- RA-VQA-v2 with FLMR は OK-VQA で約61% の VQA スコアを達成し、同程度のサイズの最先端モデルと競合。
- 整列された特徴ベースVisionとテキストベ Vision の組み合わせは画像理解を補完し、検索および VQA の性能を向上。
- トークンレベル埋め込み間の late interaction は DPR のような単一埋め込みリトリーバよりも細粒度の関連性を生み出す。
- ROI ベースの粒度細かな領域は正しく整列されれば検索性能を高めるが、ROI 数が多すぎるとノイズになる場合がある。
- FLMR は FVQA および Infoseek 検索タスクで一般化可能な改善を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。