[論文レビュー] Weakly-Supervised Video Object Grounding from Text by Loss Weighting and Object Interaction
この論文は frame-wise loss weighting を導入し、言語-guided object interaction を用いて、 sentences within video segments で説明されるオブジェクトを弱監督で grounding する手法を提案し、YouCook2-BoundingBox において state-of-the-art の結果を評価した。
We study weakly-supervised video object grounding: given a video segment and a corresponding descriptive sentence, the goal is to localize objects that are mentioned from the sentence in the video. During training, no object bounding boxes are available, but the set of possible objects to be grounded is known beforehand. Existing approaches in the image domain use Multiple Instance Learning (MIL) to ground objects by enforcing matches between visual and semantic features. A naive extension of this approach to the video domain is to treat the entire segment as a bag of spatial object proposals. However, an object existing sparsely across multiple frames might not be detected completely since successfully spotting it from one single frame would trigger a satisfactory match. To this end, we propagate the weak supervisory signal from the segment level to frames that likely contain the target object. For frames that are unlikely to contain the target objects, we use an alternative penalty loss. We also leverage the interactions among objects as a textual guide for the grounding. We evaluate our model on the newly-collected benchmark YouCook2-BoundingBox and show improvements over competitive baselines.
研究の動機と目的
- 動画内の文で言及されたオブジェクトを、 bounding box アノテーションなしで学習中に groundingする。
- セグメントレベルの監督をフレームレベルの grounding に伝搬させ、 sparsely appearing なオブジェクトに対処する。
- オブジェクトの相互作用をテキストガイダンスとして活用し grounding を改善する。
- 評価用の bounding box アノテーションを備えた YouCook2 由来の新しい video grounding ベンチマークを提供する。
提案手法
- target object が現れにくい場合には frame-level ranking loss を下方重み付けし、ペナルティ項を追加する frame-wise loss weighting。
- フレーム重み付けのための二つの信頼信号: (i) フレームごとの視覚‐意味的類似度、 and (ii) object queries に対する自己注意を通じた language-guided object interaction。
- 最終損失 L は frame-wise ranking losses とペナルティをバランスパラメータ lambda で結合する。
- object interaction モデリングは object queries に対する multi-head self-attention を用いて language-based confidence signals を生成する。
- Grounding by Ranking の video ドメインへの拡張として、 per-frame proposals とスケールド・ドット積類似度を導入。
- 評価は最頻オブジェクトの bounding boxes を用いた YouCook2-BoundingBox データセットで行う。
実験結果
リサーチクエスチョン
- RQ1frame-wise loss weighting は動画内で sparsely appearing なオブジェクトの weakly-supervised grounding を改善できるか。
- RQ2視覚的手がかりと language-guided object interactions を組み合わせると frame-agnostic な方法より grounding が改善されるか。
- RQ3提案手法は料理動画 grounding ベンチマークの既存ベースラインと比較してどうか。
主な発見
| 手法 | ボックス精度(%) | 検証 | テスト |
|---|---|---|---|
| Baseline Random | 13.30 | 14.18 | |
| GroundeR | 19.63 | 19.94 | |
| DVSA | 30.51 | 30.80 | |
| Loss Weighting | 30.07 | 31.23 | |
| Object Interaction | 29.61 | 30.06 | |
| Full Model | 30.31 | 31.73 | |
| Upper bound | 57.77 | 58.56 |
- Loss Weighting モデルは DVSA ベースラインより検証・テストセットで Box Accuracy を改善(Val. 30.07%, Test 31.23%)。
- Object Interaction モデルもベースラインを上回り(Val. 29.61%, Test 30.06%)。
- Full Model が loss weighting と object interaction の両方を達成し、より高い精度を示す(Val. 30.31%, Test 31.73%)。
- upper-bound 精度(20 proposals 全部を使用)の場合は 57.77%(Val.)と 58.56%(Test)である。
- より高いサンプリングレートは全体の性能をわずかに低下させるが、提案された loss weighting は dense frame sampling のもとで DVSA より頑健である。
- 料理動画の grounding 性能は特に静的オブジェクトで改善を示すが、状態変化に関与するオブジェクトでは制約がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。