[論文レビュー] Auto-captions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training
本論文では、自動的に整理されたWebベースのGIFのAltテキストアノテーションを用いて抽出された、164,378組の多様な動画-キャプションペアを含む大規模な自動的に整備された動画-文データセットであるAuto-captions on GIFを紹介する。著者らは、このデータセットで事前学習されたTransformerベースのエンコーダ-デコーダモデル(TransED)を提案し、特にMSR-VTTで微調整した場合、動画キャプションの下流タスクにおいて顕著な性能向上を達成し、オンラインテストセットでCIDErスコア23.9という最先端の結果を達成した。
In this work, we present Auto-captions on GIF, which is a new large-scale pre-training dataset for generic video understanding. All video-sentence pairs are created by automatically extracting and filtering video caption annotations from billions of web pages. Auto-captions on GIF dataset can be utilized to pre-train the generic feature representation or encoder-decoder structure for video captioning, and other downstream tasks (e.g., sentence localization in videos, video question answering, etc.) as well. We present a detailed analysis of Auto-captions on GIF dataset in comparison to existing video-sentence datasets. We also provide an evaluation of a Transformer-based encoder-decoder structure for vision-language pre-training, which is further adapted to video captioning downstream task and yields the compelling generalizability on MSR-VTT. The dataset is available at \url{http://www.auto-video-captions.top/2020/dataset}.
研究の動機と目的
- 一般的な動画理解のための、大規模で多様な動画-文データセットの不足を解消すること。
- WebベースのGIFから大規模に動画-キャプションペアを収集・フィルタリングする自動パイプラインの開発。
- 大規模で多様で、プログラムで生成されたデータセットを用いて、ビジョン・ランゲージの事前学習を可能にすること。
- Auto-captions on GIFにおける事前学習の有効性を、下流の動画キャプションタスクにおいて評価すること。
- ビジョン・ランゲージで事前学習されたエンコーダ-デコーダモデルがMSR-VTTでどれほど一般化可能であるかを示すこと。
提案手法
- Web上の数十億のページにわたるGIFのAltテキスト属性から、自動的に動画-文ペアを抽出する。
- 複数段階のフィルタリングパイプラインを適用:低・高極性、不適切語、繰り返しトークン、文法的に誤った文を除外する。
- 固有名称(例:映画、テレビ番組、音楽)やボイラープレートテキスト、情報量の少ないフレーズを含む文を除外する。
- 視覚的コンテンツが多様にカバーされる164,378組の動画-キャプションペアを含む大規模な動画-文データセットを構築する。
- マスクドシーケンス生成、マスクドフレーム特徴回帰、動画-文マッチング、マスクド言語モデリングの4つの代理タスクを備えた、Transformerベースのエンコーダ-デコーダアーキテクチャ(TransED)を設計する。
- Auto-captions on GIFデータセットでTransEDを事前学習し、その後、MSR-VTTでクロスエントロピーとCIDErに基づく強化学習を用いて、動画キャプションタスクの微調整を実施する。
実験結果
リサーチクエスチョン
- RQ1大規模で自動収集された動画-文データセットは、ビジョン・ランゲージの事前学習を通じて、一般的な動画理解を向上させることができるか?
- RQ2Auto-captions on GIFにおけるビジョン・ランゲージの事前学習は、下流の動画キャプションタスクにおいてどれほど効果的か?
- RQ3Auto-captions on GIFのような多様でWeb規模のデータセットで事前学習することで、タスク固有のデータから訓練を開始するのと比べて、より良い一般化性能が得られるか?
- RQ4事前学習と強化学習による微調整を組み合わせた場合、動画キャプション性能にどのような影響を与えるか?
- RQ5事前学習済みのTransEDモデルの性能は、MSR-VTTにおける最先端のモデルと比べてどうか?
主な発見
- Auto-captions on GIFデータセットには164,378組の動画-文ペアが含まれており、発表当時、公開済みの最大の動画-文データセットである。
- このデータセットは、複数段階のフィルタリングパイプラインを用いて、WebベースのGIFから自動的に構築されており、高品質で多様で重複のないキャプションを保証している。
- Auto-captions on GIFでTransEDを事前学習することで、MSR-VTTの動画キャプションベンチマークにおける性能が顕著に向上し、タスク固有のデータでのみ学習されたモデルを上回った。
- 最も優れた性能を示したモデル、すなわちTransED RL + Pre-trainingは、オンラインテストセットでCIDErスコア23.9を達成し、以前の最先端の結果を上回った。
- CIDEr報酬を用いた微調整により、TransED RL + Pre-trainingは公式テストスプリットでBERTScore F1 18.1およびCIDErスコア22.3を達成し、強力な一般化性能を示した。
- これらの結果は、Auto-captions on GIFのような大規模で多様で自動収集されたデータセットを用いたビジョン・ランゲージの事前学習が、複数の指標において下流の動画キャプション性能を向上させることを確認した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。