[論文レビュー] Weakly Supervised Dense Event Captioning in Videos
本論文は、Temporal segment annotationsなしで動画内イベントを局在化しキャプション付けを学習する Weakly Supervised Dense Event Captioning (WS-DEC) を提案します。固定点反復を用いた文の局在化とキャプション生成の双方向サイクルによって学習します。
Dense event captioning aims to detect and describe all events of interest contained in a video. Despite the advanced development in this area, existing methods tackle this task by making use of dense temporal annotations, which is dramatically source-consuming. This paper formulates a new problem: weakly supervised dense event captioning, which does not require temporal segment annotations for model training. Our solution is based on the one-to-one correspondence assumption, each caption describes one temporal segment, and each temporal segment has one caption, which holds in current benchmark datasets and most real-world cases. We decompose the problem into a pair of dual problems: event captioning and sentence localization and present a cycle system to train our model. Extensive experimental results are provided to demonstrate the ability of our model on both dense event captioning and sentence localization in videos.
研究の動機と目的
- dense event captioning における temporal segment labeling を排除して注釈コストを削減する。
- 弱い監督を可能にするために、一対一のキャプションとセグメントの対応を活用する。
- 文の局在化とキャプション生成のデュアル学習サイクルを開発し、エンドツーエンドで訓練する。
- ActivityNet Captions を用いて、密集キャプショニングと文の局在化の両方で有効性を示す。
提案手法
- 2つのデュアルタスクを定式化する: 文の局在化 lθ1(V, C) とイベントキャプショニング gθ2(V, S)。
- 推定時に有効なセグメントへ収束させるために固定点反復を用いる: S(t+1)=lθ1(V, gθ2(V, S(t))).
- 循環制約: C ≈ gθ2(V, lθ1(V, C)) と収束を促すノイズ除去風の損失で訓練。
- ビデオとキャプション特徴間の異モード局在化のために Crossing Attention を適用。
- 複数アンカー分類によるセグメント局在化の回帰を行い、最良アンカーの周りを refine。
- ビデオセグメント上で微分可能なキャプション生成を可能にするソフトクリッピング機構を導入。
実験結果
リサーチクエスチョン
- RQ1密集イベントキャプショニングを時間的セグメント注釈なしで学習できるか?
- RQ2キャプションとセグメントの双方向・一対一対応がWS-DECの訓練に十分か?
- RQ3固定点反復とデノイジングが弱い監督下での訓練の安定性と性能に寄与するか?
主な発見
| モデル | ws | M | C | R | B@1 | B@2 | B@3 | B@4 |
|---|---|---|---|---|---|---|---|---|
| Krishna et al. (2017) | False | 4.82 | 17.29 | – | 17.95 | 7.69 | 3.86 | 2.20 |
| Yao et al. | False | 7.71 | 16.08 | 13.27 | 17.50 | 9.62 | 5.54 | 3.38 |
| Pretrained | True | 4.58 | 10.45 | 9.27 | 8.70 | 3.39 | 1.50 | 0.69 |
| Ours (no classification) | True | 6.08 | 15.10 | 12.25 | 11.85 | 4.67 | 1.90 | 0.80 |
| Ours (no regression) | True | 6.11 | 17.66 | 12.40 | 11.98 | 5.45 | 2.69 | 1.44 |
| Ours | True | 6.30 | 18.77 | 12.55 | 12.41 | 5.50 | 2.62 | 1.27 |
- ActivityNet Captions では、WS-DEC モデルが一部の完全監視手法と比較して METEOR および CIDEr スコアで競争力を持つ。
- 提案手法は Meteor を完全監視手法と同程度に達し、弱い監視バリアントの中で最良の CIDEr スコアを達成。
- 最終的な WS-DEC モデル(全コンポーネント搭載)は、教師なしベースラインおよびアブレート済み変法を dense event captioning 指標で上回る。
- 局在化の結果は、弱い監督下で妥当なセグメント予測を示し、CTRL を上回り、いくつかの指標で監督ありのベースラインに近づく (R@1 IoU=0.1〜0.5, mIoU)。
- テスト時に乱数初期セグメント数を増やすと控えめな改善が得られるが収穫の伸びは小さく、初期提案に対するロバスト性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。