[論文レビュー] SimVG: A Simple Framework for Visual Grounding with Decoupled Multi-modal Fusion
SimVGは多模态融合を下流の grounding タスクからデカップリングし、軽量なトークン分岐を備えた統一的な多模态エンコーダと動的ウェイトバランス蒸留を用いて、最先端のビジュアル grounding を効率的に実現します。
Visual grounding is a common vision task that involves grounding descriptive sentences to the corresponding regions of an image. Most existing methods use independent image-text encoding and apply complex hand-crafted modules or encoder-decoder architectures for modal interaction and query reasoning. However, their performance significantly drops when dealing with complex textual expressions. This is because the former paradigm only utilizes limited downstream data to fit the multi-modal feature fusion. Therefore, it is only effective when the textual expressions are relatively simple. In contrast, given the wide diversity of textual expressions and the uniqueness of downstream training data, the existing fusion module, which extracts multimodal content from a visual-linguistic context, has not been fully investigated. In this paper, we present a simple yet robust transformer-based framework, SimVG, for visual grounding. Specifically, we decouple visual-linguistic feature fusion from downstream tasks by leveraging existing multimodal pre-trained models and incorporating additional object tokens to facilitate deep integration of downstream and pre-training tasks. Furthermore, we design a dynamic weight-balance distillation method in the multi-branch synchronous learning process to enhance the representation capability of the simpler branch. This branch only consists of a lightweight MLP, which simplifies the structure and improves reasoning speed. Experiments on six widely used VG datasets, i.e., RefCOCO/+/g, ReferIt, Flickr30K, and GRefCOCO, demonstrate the superiority of SimVG. Finally, the proposed method not only achieves improvements in efficiency and convergence speed but also attains new state-of-the-art performance on these benchmarks. Codes and models will be available at \url{https://github.com/Dmmm1997/SimVG}.
研究の動機と目的
- 下流タスクから多模态融合を切り離すことにより、視覚的 grounding の改善を動機づける。
- 重い下流の fusion モジュールを用いずに、事前学習済みのマルチモーダルモデルを活用して跨モーダル相互作用を高める。
- 軽量なトークンベースの分岐と蒸留機構を導入して、効率と速度を向上させる。
- オブジェクトクエリにテキスト的事前情報を注入するテキスト誘導クエリ生成モジュールを開発する。
- データ効率と収束速度を改善しつつ、六つのVGデータセットで最先端の性能を実証する。
提案手法
- 画像、テキスト、および学習可能なオブジェクトトークンをエンコードするマルチモーダルエンコーダを使用する(BEiT-3風のアーキテクチャに基づく)。
- デュアルブランチデコーダを採用する:標準デコーダーブランチ(Transformerベース)とMLPを用いる軽量トークンブランチ。
- 同期学習中に、真値からの指導とデコーダ予測の指導を時系列にバランスさせる動的ウェイトバランス蒸留(DWBD)を導入する。
- オブジェクトクエリへテキスト的事前情報を注入するテキスト誘導クエリ生成(TQG)モジュールを組み込む。
- DETR風のHungarianマッチング損失とDWBD損失を組み合わせた蒸留ヘッドで訓練する。
- 推論を高速化するために、トークン分岐とデコーダ分岐を個別に使用可能にするオプション(SimVG-TB/SimVG-DB)。
- 融合をタスク特化の grounding から切り離すと、収束速度とデータ効率が改善されることを示す。
実験結果
リサーチクエスチョン
- RQ1下流の grounding からマルチモーダル融合を切り離すことは、複雑なテキスト表現に対する性能を改善しますか?
- RQ2強力なデコーダに導かれた軽量トークン分岐は、より低い計算量で競争力のあるまたは優れた grounding を達成できますか?
- RQ3同期学習中のトークンとデコーダ分岐の整合性を DWBD がどれだけ効果的に促進しますか?
- RQ4拡張された GREC風クエリを扱う際に、テキスト誘導クエリ生成(TQG)は grounding を改善しますか?
- RQ5標準 VG ベンチマーク全体でのデータ効率と収束性能の利点は何ですか?
主な発見
- SimVG は RefCOCO/+/g、ReferIt、Flickr30K、GRefCOCO を含む六つの VG データセットで最先端の性能を達成します。
- DWBD に支えられた軽量トークン分岐は、特により大きなエンコーダーを用いた場合、デコーダーブランチの性能に匹敵するか上回ることができる。
- DWBD は訓練中に真値からデコーダ予測への指導を動的に移行させ、トークン分岐の学習を改善する。
- TQG はオブジェクトクエリへテキスト的事前情報を注入することにより、測定可能な向上をもたらす(RefCOCO の val/test で平均約0.8ポイント)。
- SimVG はより速い収束とデータ効率の向上を提供し、比較的少ない事前学習データと控えめな計算資源で強力な結果を達成します(例: RefCOCO バリアントの RTX 3090 で ViT-B/32 を 12 時間)。
- SimVG-TB および SimVG-DB バリアントは、競争力のある精度で効率的な推論を可能にし、実用的なデプロイの利点を強調します。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。