QUICK REVIEW

[論文レビュー] Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers

Antoine Miech, Jean-Baptiste Alayrac|arXiv (Cornell University)|Mar 30, 2021

Multimodal Machine Learning Applications参考文献 89被引用数 130

ひとこと要約

本論は、蒸留と再ランキングを通じて高速なデュアルエンコーダーモデルと遅いクロスアテンション変換器を組み合わせ、スケーラブルで高精度なテキストからビジョンへの検索を実現します。特徴アップサンプリングを用いた細粒度のクロスアテンションと双方向キャプション学習 objectives を導入し、COCO、Flickr30K、VATEX データセットで検証します。

ABSTRACT

Our objective is language-based search of large-scale image and video datasets. For this task, the approach that consists of independently mapping text and vision to a joint embedding space, a.k.a. dual encoders, is attractive as retrieval scales and is efficient for billions of images using approximate nearest neighbour search. An alternative approach of using vision-text transformers with cross-attention gives considerable improvements in accuracy over the joint embeddings, but is often inapplicable in practice for large-scale retrieval given the cost of the cross-attention mechanisms required for each sample at test time. This work combines the best of both worlds. We make the following three contributions. First, we equip transformer-based models with a new fine-grained cross-attention architecture, providing significant improvements in retrieval accuracy whilst preserving scalability. Second, we introduce a generic approach for combining a Fast dual encoder model with our Slow but accurate transformer-based model via distillation and re-ranking. Finally, we validate our approach on the Flickr30K image dataset where we show an increase in inference speed by several orders of magnitude while having results competitive to the state of the art. We also extend our method to the video domain, improving the state of the art on the VATEX dataset.

研究の動機と目的

大規模な画像/動画データセットに対する言語ベースの検索を実現するためのスケーラブルな検索の動機づけ。
正確なクロスアテンションを活かすことができる高速でインデックス可能なデュアルエンコーダーの開発。
高速な結果の再ランキングを遅いクロスアテンションモデルで行い、精度を向上。
細粒度のクロスアテンションアーキテクチャとキャプションベースの訓練目的の導入。
画像および動画検索データセットでスケーラビリティと最先端に近い性能を示す。

提案手法

画像テキスト検索のための高速デュアルエンコーダ(DE)と遅いクロスアテンション(CA)モデルを定義する。
細粒度の視覚言語クロスアテンションを可能にする新規の段階的特徴アップサンプリングアーキテクチャを導入する。
遅いCAモデルを検索用に訓練するために双方向キャプション学習損失を使用する。
教師-生徒蒸留目的を用いて、サンプリングされた画像-テキストペア上で遅いCAモデルから高速DEモデルへ知識を蒸留する。
高速DE検索と遅いCA再ランキングを組み合わせ、高速モデルのトップK候補を選択して遅いモデルで再ランキングする（式9）。
オプションとして、すべての候補に対してではなく、クエリ時に再ランキングステップを適用してCAの効率を改善する。

実験結果

リサーチクエスチョン

RQ1クロスアテンションモデルは、インデックス作成を維持しつつ、テキスト対ビジョンの検索を改善できるか？
RQ2遅いクロスアテンションモデルからの知識蒸留が、インデックス可能性を損なうことなく高速デュアルエンコーダーを改善できるか？
RQ3トップKの高速結果に対して遅いモデルで再ランキングすることで、遅延を抑えつつ精度は大幅に向上するか？
RQ4キャプションベースの訓練目的は、従来のコントラスト学習／目的関数損失と比較して、検索に対して競争力があるか？
RQ5徐々の特徴アップサンプリングは、視覚と言語の検索における細粒度のグ grounding にどのように影響するのか？

主な発見

クロスアテンションモデルは一般的に検索ベンチマークでデュアルエンコーダより上回るが、蒸留を用いたデュアルエンコーダはギャップを埋められる。
双方向キャプション目的は、キャプション学習が検索に競争力を持つ結果を生み、標準的なクロスモーダルマッチング損失を上回ることもある。
高解像度視覚特徴の段階的アップサンプリングは、ベースラインのクロスアテンションモデルに比べてRecall@1(R@1)およびRecall@5(R@5)を大幅に向上させる。
Slow CAをFast DEへ蒸留すると、COCOで訓練した場合Fast DEのR@1が10ポイント超改善され、Slowモデルとの差が縮まる。
Top-Kの高速結果をSlowモデルで再ランキングすることで、Slow単独よりも大幅な速度向上を保ちつつ最先端に近い性能を達成できる（例：COCOでSlowのみより約100x高速）。
Fast+Slowアプローチの組み合わせは、画像データセット（COCO、Flickr30K）で強力な結果を示し、ビデオ（VATEX）にも効果的に拡張される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。