Skip to main content
QUICK REVIEW

[論文レビュー] SwinBERT: End-to-End Transformers with Sparse Attention for Video Captioning

Kevin Lin, Linjie Li|arXiv (Cornell University)|Nov 25, 2021
Multimodal Machine Learning Applications被引用数 31
ひとこと要約

SwinBERT は、Video Swin Transformer とマルチモーダル Transformer エンコーダで生の動画フレームを処理し、長距離の動画シーケンスモデリングを改善する学習可能な疎注目マスクを用いた、動画キャプション生成のエンドツーエンド純粋な Transformer モデルである。

ABSTRACT

The canonical approach to video captioning dictates a caption generation model to learn from offline-extracted dense video features. These feature extractors usually operate on video frames sampled at a fixed frame rate and are often trained on image/video understanding tasks, without adaption to video captioning data. In this work, we present SwinBERT, an end-to-end transformer-based model for video captioning, which takes video frame patches directly as inputs, and outputs a natural language description. Instead of leveraging multiple 2D/3D feature extractors, our method adopts a video transformer to encode spatial-temporal representations that can adapt to variable lengths of video input without dedicated design for different frame rates. Based on this model architecture, we show that video captioning can benefit significantly from more densely sampled video frames as opposed to previous successes with sparsely sampled video frames for video-and-language understanding tasks (e.g., video question answering). Moreover, to avoid the inherent redundancy in consecutive video frames, we propose adaptively learning a sparse attention mask and optimizing it for task-specific performance improvement through better long-range video sequence modeling. Through extensive experiments on 5 video captioning datasets, we show that SwinBERT achieves across-the-board performance improvements over previous methods, often by a large margin. The learned sparse attention masks in addition push the limit to new state of the arts, and can be transferred between different video lengths and between different datasets. Code is available at https://github.com/microsoft/SwinBERT

研究の動機と目的

  • 固定フレームレートの特徴抽出器を使わず、エンドツーエンドの動画キャプション生成を動機づける。
  • 生のフレームからの可変長動画入力を扱う Video Swin Transformer エンコーダを提案する。
  • 長距離の動画シーケンスモデリングを正則化するための学習可能な疎アテンションマスクを導入する。
  • 複数のベンチマークで従来の最先端を大きく上回る CIDEr の改善を実証する。

提案手法

  • Video Swin Transformer (VidSwin) を用いて生のフレームを動画トークンへ変換する。
  • 動画トークンと単語トークンからキャプションを生成するマルチモーダル Transformer エンコーダを採用する。
  • 情報量の多い動画トークンに焦点を当てるため、疎性損失を伴う学習可能な疎アテンションマスクを導入する。
  • 疎アテンション損失と統合された Masked Language Modeling でエンドツーエンドに訓練する。
  • 密なサンプリングの影響を Captioning 性能に与える効果を検討するため、異なるフレーム数で実験する。

実験結果

リサーチクエスチョン

  • RQ1生の動画フレーム上のエンドツーエンドの Transformer ベースモデルは、複数特徴アプローチに匹敵するまたは上回る動画キャプション生成を実現できるか?
  • RQ2学習可能な疎アテンションはキャプション生成の長距離動画シーケンスモデリングを改善するか?
  • RQ3フレーム密度(フレーム数)はデータセット全体でキャプション生成性能にどのように影響するか?
  • RQ4疎アテンションマスクはフレームレートやデータセットを超えて転移可能か?

主な発見

データセットSOTA CIDErSwinBERT CIDEr
MSVD95.2120.6
MSRVTT53.6109.0
TVC52.956.9
VATEX58.173.0
  • SwinBERT は five datasets において従来の SOTA より大きな CIDEr の向上を達成する(例: MSVD, MSRVTT, TVC, VATEX)。
  • 入力フレーム数を増やす(dense sampling)は CIDEr スコアを改善する。
  • 提案された疎アテンションマスクは、疎性制約とともに性能を向上させ、顕著な動画トークンに焦点を当てることを学習する。
  • 疎マスクはフレームレートを超えて転移可能で、微調整を通じてデータセット間の転移も可能。
  • Binary または soft の疎マスクは、全体的なアテンションと同等の性能を示し、実行時の利点がある可能性。
  • 可視化は、動きのある中心領域のトークンを優先し、境界には疎に注意していることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。