QUICK REVIEW

[論文レビュー] Unsupervised Extraction of Video Highlights Via Robust Recurrent Auto-encoders

Huan Yang, Baoyuan Wang|arXiv (Cornell University)|Oct 6, 2015

Video Analysis and Summarization参考文献 31被引用数 26

ひとこと要約

この論文では、ウェブクロールされたユーザー編集済み動画を用いて訓練された頑健な再帰的オートエンコーダー（RRAE）を用いた教師なし動画ハイライト抽出手法を提案する。編集済みクリップ間で頻出する部分イベントを活用し、ノイズ耐性を高めるために縮小指数関数的損失を採用、かつ時間的モデリングに双方向LSTMを用いることで、生動画ペairを必要としないにもかかわらず教師あり手法に近い性能を達成し、多様な動画ドメインにおいて優れた汎化性能を示している。

ABSTRACT

With the growing popularity of short-form video sharing platforms such as \em{Instagram} and \em{Vine}, there has been an increasing need for techniques that automatically extract highlights from video. Whereas prior works have approached this problem with heuristic rules or supervised learning, we present an unsupervised learning approach that takes advantage of the abundance of user-edited videos on social media websites such as YouTube. Based on the idea that the most significant sub-events within a video class are commonly present among edited videos while less interesting ones appear less frequently, we identify the significant sub-events via a robust recurrent auto-encoder trained on a collection of user-edited videos queried for each particular class of interest. The auto-encoder is trained using a proposed shrinking exponential loss function that makes it robust to noise in the web-crawled training data, and is configured with bidirectional long short term memory (LSTM)~\cite{LSTM:97} cells to better model the temporal structure of highlight segments. Different from supervised techniques, our method can infer highlights using only a set of downloaded edited videos, without also needing their pre-edited counterparts which are rarely available online. Extensive experiments indicate the promise of our proposed solution in this challenging unsupervised settin

研究の動機と目的

生動画と編集済み動画のペアがほとんど入手できない状況において、動画ハイライト抽出の課題に取り組むこと。
ソーシャルメディアに多数存在するユーザーが編集した短尺動画を、教師なし学習データのソースとして活用すること。
ハイライト部分イベントを、編集済み動画全体で頻繁に出現するパターンとしてモデル化し、まれなまたは特異的なクリップを外れ値として扱うこと。
ノイズを含むウェブクロールされた学習データに対しても効果を発揮する頑健な学習フレームワークを開発すること。
教師あり手法と同等の性能を達成できる教師なし手法が、実際の編集ペアが入手不可な状況でも有効であることを示すこと。

提案手法

時間的依存性をモデル化するために、双方向LSTMセルを用いた再帰的オートエンコーダー（RAE）を用いる。
訓練中にノイズや外れ値の影響を低減するため、新しい縮小指数関数的損失関数を導入する。
オートエンコーダーは入力動画スニペットを正確に再構成することを目的とし、再構成誤差が小さいほどハイライトである可能性が高くなる。
C3Dネットワークを用いて特徴量を抽出し、次にドメイン固有のPCAを適用して次元を削減しながらエネルギーの90%を保持する。
再構成誤差が小さいスニペットをハイライトとして特定する。これは、共通する部分イベント（ハイライト）が特徴空間に凝集するという仮定に基づく。
モデルは元の未編集動画にアクセスすることなく、ダウンロードした編集済み動画のみを用いて訓練される。

実験結果

リサーチクエスチョン

RQ1ウェブ上の編集済み動画のみを用いて、教師なしで動画ハイライトを効果的に特定できるか？
RQ2ウェブクロールされた動画データに含まれるノイズに対して、オートエンコーダーをどのようにして頑健にすればよいか？
RQ3双方向LSTMによる時間的文脈のモデル化は、ハイライト検出性能をどの程度向上させるか？
RQ4生動画ペアが入手不可な状況において、提案手法の教師なし手法は教師ありベースラインと比べてどの程度の性能を示すか？
RQ5ユーザーが編集した動画間で頻出する部分イベントは、信頼性を持って顕著なハイライト瞬間を示唆できるか？

主な発見

提案された頑健な再帰的オートエンコーダー（RRAE）は、YouTubeデータセットでmAP 0.434を達成し、あらゆるドメインで標準オートエンコーダー、PCA、OCSVMを上回った。
双方向LSTMの導入により、性能が10%以上向上し、mAPは0.371から0.410に上昇した。これは時間的モデリングの重要性を示している。
縮小指数関数的損失の導入により、ノイズの多いデータに対する耐性が著しく向上し、訓練中に外れ値の影響が軽減された。
生動画ペアにアクセスできない状況下でも、教師なしRRAEはSunらの教師あり手法（「dog」では0.60対0.49、「surfing」では0.61対0.49）に近いmAPスコアを達成した。
「体操」「パーカー」「スケート」「スキー」など多様なドメインにわたり、一貫した性能を示し、優れた汎化性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。