[論文レビュー] End-to-End Dense Video Captioning with Masked Transformer
エンドツーエンドのトランスフォーマーを用いた密な動画キャプショニングで、提案とキャプショニングを微分可能マスクで結びつけることで提案とキャプショニングを整合させ、RNNの代わりに自己注意を活用する。
Dense video captioning aims to generate text descriptions for all events in an untrimmed video. This involves both detecting and describing events. Therefore, all previous methods on dense video captioning tackle this problem by building two models, i.e. an event proposal and a captioning model, for these two sub-problems. The models are either trained separately or in alternation. This prevents direct influence of the language description to the event proposal, which is important for generating accurate descriptions. To address this problem, we propose an end-to-end transformer model for dense video captioning. The encoder encodes the video into appropriate representations. The proposal decoder decodes from the encoding with different anchors to form video event proposals. The captioning decoder employs a masking network to restrict its attention to the proposal event over the encoding feature. This masking network converts the event proposal to a differentiable mask, which ensures the consistency between the proposal and captioning during training. In addition, our model employs a self-attention mechanism, which enables the use of efficient non-recurrent structure during encoding and leads to performance improvements. We demonstrate the effectiveness of this end-to-end model on ActivityNet Captions and YouCookII datasets, where we achieved 10.12 and 6.58 METEOR score, respectively.
研究の動機と目的
- イベントの局在化と説明生成を密接に結びつけた、密な動画キャプショニングを動機づける。
- 言語情報がイベント提案に影響を与えるようにするエンドツーエンドのトランスフォーマーモデルを開発する。
- 訓練の一貫性を保つため、提案領域とキャプショニングのアテンションを整合させる微分可能マスクを導入する。
提案手法
- フレーム表現を生成する自己注意を用いたビデオエンコーダを用いる。
- アンカーを用いた提案デコーダを実装してイベント提案(開始、終了、信頼度)を生成する。
- 提案を現在のイベントへ導く微分可能マスクを生成するマスキングネットワークを備えたキャプショニングデコーダを実装する。
- 提案予測とキャプショニング過程を融合させるゲート付きの連続/離散マスキング関数を適用する。
- 回帰、マスク、提案、キャプショニングの損失を含むマルチタスク損失でエンドツーエンドを訓練する。
実験結果
リサーチクエスチョン
- RQ1エンドツーエンドのトランスフォーマー枠組みが、密な動画キャプショニングにおいて言語情報を直接イベント提案に影響させることを可能にするか?
- RQ2訓練中、微分可能マスキング機構は提案イベントと生成キャプションの一貫性を改善するか?
- RQ3自己注意ベースのエンコーダとデコーダは、RNNベースのアプローチと比較して密な動画キャプショニングにおける長距離依存性のモデリングを改善するか?
- RQ4エンドツーエンドモデルはActivityNet CaptionsとYouCookIIでLSTMベースのベースラインと比較してどのような性能を示すか?
主な発見
| 手法 | B@3 | B@4 | M |
|---|---|---|---|
| Bi-LSTM | 2.43 | 1.01 | 7.49 |
| +TempoAttn | - | - | - |
| Masked Transformer | 4.47 | 2.14 | 9.43 |
| End-to-end Masked Transformer | 4.76 | 2.23 | 9.56 |
- エンドツーエンドマスキング付きトランスフォーマーは、ActivityNet CaptionsおよびYouCookIIでキャプショニングと密な動画指標の点でLSTMベースのベースラインを上回る。
- 学習済みの提案を用いたActivityNet Captionsで、モデルはBLEU-3 4.76、BLEU-4 2.23、METEOR 9.56を達成。
- Bi-LSTMおよびTempoAttnベースラインと比較して、マスキングを用いたエンドツーエンドモデルは検証時により高いMETEORおよびBLEUスコアを示す。
- 真の提案を使用すると、トランスフォーマーの深さを増やすほどキャプショニング指標が漸進的に改善され、2層が良いバランスを提供。
- 自己注意ベースのコンテキストエンコーディングは、Bi-LSTMベースラインと比較してイベント提案のリコールと総合的な密なキャプショニング性能を改善する。
- 微分可能マスキング方式(およびそのゲート付き変種)は、訓練中の提案イベントと生成キャプションの一貫性を維持するのに役立つ。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。