Skip to main content
QUICK REVIEW

[論文レビュー] Rethinking Cross-modal Interaction from a Top-down Perspective for Referring Video Object Segmentation

Liang Chen, Yu Wu|arXiv (Cornell University)|Jun 2, 2021
Multimodal Machine Learning Applications参考文献 26被引用数 32
ひとこと要約

本論文は、RVOSに対するトップダウンの2段階アプローチを提案する。多フレームのインスタンスセグメンテーションと伝播を通じて網羅的なオブジェクト・トラックレットを生成し、次にTransformerベースのモジュールを用いてトラックレット上で言語参照をグラウンドする。Referring Youtube-VOSで最先端の結果を達成。

ABSTRACT

Referring video object segmentation (RVOS) aims to segment video objects with the guidance of natural language reference. Previous methods typically tackle RVOS through directly grounding linguistic reference over the image lattice. Such bottom-up strategy fails to explore object-level cues, easily leading to inferior results. In this work, we instead put forward a two-stage, top-down RVOS solution. First, an exhaustive set of object tracklets is constructed by propagating object masks detected from several sampled frames to the entire video. Second, a Transformer-based tracklet-language grounding module is proposed, which models instance-level visual relations and cross-modal interactions simultaneously and efficiently. Our model ranks first place on CVPR2021 Referring Youtube-VOS challenge.

研究の動機と目的

  • 伝統的なボトムアップのグリッドレベルのグラウンディングより、RVOSに対してトップダウンのオブジェクト中心アプローチを動機づける。
  • 重要フレームをマスキングし、マスクをビデオ全体に伝播させることにより、網羅的なオブジェクト・トラックレットの集合を構築する。
  • 冗長なトラックレットを効率的に削減するトラックレット-NMSメカニズムを開発する。
  • 内部-外部モーダル間の関係をモデル化するTransformerベースのトラックレット-言語グラウンディングモジュールを提案する。
  • Referring Youtube-VOS チャレンジで最先端の性能を示す。

提案手法

  • K 個のキーフレームにインスタンスセグメンテーションを適用して O^k_n を得ることで、オブジェクト候補を生成する。
  • 各候補マスクをビデオ全体に伝播させてトラックレット Γ^k_n を形成する。
  • トラックレット-IoUを用いたトラックレット-NMSを適用し、上位 P 個のトラックレットを候補として選択する。
  • フレームごとのトラックレット特徴と言語特徴を抽出し、Transformerグラウンディングモジュールを用いてフレームごとにトラックレットスコアを算出する。
  • 各フレームでスコアが最も高いトラックレットを選択し、ビデオ全体を統合して最終セグメンテーションを計算する。
  • Eq. 6 に対して、画像レベルのエンコーダ(HTC/CondInst)、CFBI+ 伝播、ResNet-101/ BERTベースのエンコーダ、および4層のTransformerグラウンディングモジュールを用いる。
  • トレーニングは COCO/RVOS-D データでのコンポーネントの事前学習、続いて RVOS-D でのファインチューニング、および最終予測のためのモデルアンサンブルを含む。
  • research_questions':['オブジェクトレベルのトップダウングラウンディングは、ボトムアップのグリッドレベル手法と比較してRVOSを改善できるか?','網羅的なトラックレット生成とNMSの組み合わせは、言語グラウンディングのための堅牢な参照候補を生み出すか?','クロスモーダルおよびトラックレット間の関係をモデル化するTransformerベースのグラウンディングモジュールはどの程度有効か?']
  • key_findings':['Top-down pipeline with object tracklets and Transformer grounding achieves state-of-the-art performance on Referring Youtube-VOS challenging RVOS benchmarks.','Tracklet-NMS reduces redundancy and selects high-quality candidates for grounding.','Transformer-based grounding effectively models inter-tracklet and cross-modal relations, improving localization and segmentation accuracy.','Ablation experiments demonstrate progressive improvements from video propagation, grounding, and sequence-level NMS, culminating in the best reported results on the benchmarks.','Model ensemble further boosts performance across test-dev and test-challenge sets.'],
  • table_headers words_ignored_sent_?

実験結果

リサーチクエスチョン

  • RQ1Can a top-down, object-level grounding framework outperform bottom-up approaches in RVOS?
  • RQ2Does tracklet construction plus a tracklet-language grounding module improve cross-modal reasoning?
  • RQ3What is the impact of Sequence-NMS and model ensemble on final RVOS performance?

主な発見

ModelJ&FJF
leonnnop (Ours)61.4 (+6.6)60.0 (+6.3)62.7 (+6.7)
nowherespyfly54.853.756.0
seonguk48.947.050.8
wangluting48.547.149.9
Merci144.943.945.9
Model ensemble (five models)61.460.062.7
Image-level Baseline40.940.541.3
+Video-level Propagation49.247.550.9
+Transformer-based Grounding56.454.858.1
+Sequence-NMS & Model Ensemble61.460.062.7
  • Top-down pipeline with object tracklets and Transformer grounding achieves state-of-the-art performance on Referring Youtube-VOS challenging RVOS benchmarks.
  • Tracklet-NMS reduces redundancy and selects high-quality candidates for grounding.
  • Transformer-based grounding effectively models inter-tracklet and cross-modal relations, improving localization and segmentation accuracy.
  • Ablation experiments demonstrate progressive improvements from video propagation, grounding, and sequence-level NMS, culminating in the best reported results on the benchmarks.
  • Model ensemble further boosts performance across test-dev and test-challenge sets.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。