Skip to main content
QUICK REVIEW

[論文レビュー] End-to-End Learning of Visual Representations from Uncurated Instructional Videos

Antoine Miech, Jean-Baptiste Alayrac|arXiv (Cornell University)|Dec 13, 2019
Human Pose and Action Recognition参考文献 90被引用数 39
ひとこと要約

この論文はMIL-NCEを導入し、ノイズ対比学習(NCE)のMILベースの目的を用いて、手動アノテーションなしで未整理の語り付き instructional videos からジョイントなビデオ-text 表現を学習し、複数の下流タスクで強力な性能を示す。

ABSTRACT

Annotating videos is cumbersome, expensive and not scalable. Yet, many strong video models still rely on manually annotated data. With the recent introduction of the HowTo100M dataset, narrated videos now offer the possibility of learning video representations without manual supervision. In this work we propose a new learning approach, MIL-NCE, capable of addressing misalignments inherent to narrated videos. With this approach we are able to learn strong video representations from scratch, without the need for any manual annotation. We evaluate our representations on a wide range of four downstream tasks over eight datasets: action recognition (HMDB-51, UCF-101, Kinetics-700), text-to-video retrieval (YouCook2, MSR-VTT), action localization (YouTube-8M Segments, CrossTask) and action segmentation (COIN). Our method outperforms all published self-supervised approaches for these tasks as well as several fully supervised baselines.

研究の動機と目的

  • 未整理のナレーション付き動画から manual annotationなしで頑健な視覚表現を学習する動機付け。
  • 動画内容とナレーションのずれを扱うためにMIL-NCEを提案する。
  • 生のピクセルとASRで文字起こしされたナレーションからゼロからジョイントのビデオ-テキスト埋め込みを学習する。
  • 学習された表現が多様な下流タスクへ良く転移することを示す。

提案手法

  • fがビデオクリップを埋め込みへ、gがナレーションを同じ埋め込み空間へ写像する、シンプルなジョイント埋め込みモデルを定義する。
  • 各学習例に対して正の候補対の集合を和集合し、ネガティブと対比するMIL-NCE損失を導入し、ずれがあっても学習を可能にする。
  • ビデオクリップの真の説明として時系列的に近いナレーションを正の候補集合として構築する。
  • 現在のバッチからサンプリングされたネガティブを用いる判別的なソフトマックス型NCE目的関数で訓練し、分子にMIL拡張を組み込む。
  • 対称的ネガティブ抽出と非対称的ネガティブ抽出を比較し、ビデオとナレーションの両方からネガティブをサンプリングした場合に最良の性能を示す。
  • I3D/S3Dなどの3D CNNバックボーンとテキストモデルを用いてジョイント埋め込みを形成し、HowTo100Mで手動ラベルなしに訓練する。

実験結果

リサーチクエスチョン

  • RQ1Can MIL-NCE learn useful joint video-text representations from uncurated narrated videos without manual annotations?
  • RQ2Does incorporating multiple positive candidates and symmetric negative sampling improve learning under misalignment between video and narration?
  • RQ3How well do the learned representations perform on a range of downstream tasks (action recognition, retrieval, localization, segmentation) compared to self-supervised and supervised baselines?
  • RQ4Is a simple language model sufficient for effective text-video matching in this setting?

主な発見

  • MIL-NCEは未整理の指示付き動画を使ってゼロから強いビデオ表現を学習する。
  • 本手法は8データセットにわたる複数のタスクで、公開済みの自己監視アプローチや多くの完全教師ありベースラインを上回る。
  • 複数の正のナレーション候補を用いると、単一インスタンス学習より性能が向上し、3–5件の正例を用いたときに最良の結果となる。
  • ネガティブを対称的にサンプリングする(動画とナレーションの両方)方が、非対称な選択より良い結果を生む。
  • ジョイントビデオ-テキスト表現は、テキストからビデオへの検索で強力な性能を発揮し、ターゲットデータセットの訓練なしで一部データセットで最先端の結果を達成。
  • HowTo100Mで訓練された視覚表現は、様々なアクション認識と局在ベンチマークに良く一般化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。