QUICK REVIEW

[論文レビュー] Video Summarization with Attention-Based Encoder-Decoder Networks

Zhong Ji, Kailin Xiong|arXiv (Cornell University)|Aug 31, 2017

Video Analysis and Summarization参考文献 17被引用数 54

ひとこと要約

本論文は、監督付き動画要約のための注意機構を備えたエンコーダ-デコーダフレームワーク「AVS」を導入し、A-AVSとM-AVSモデルを使用してSumMeとTVSumで最先端手法を上回る改善を示す。

ABSTRACT

This paper addresses the problem of supervised video summarization by formulating it as a sequence-to-sequence learning problem, where the input is a sequence of original video frames, the output is a keyshot sequence. Our key idea is to learn a deep summarization network with attention mechanism to mimic the way of selecting the keyshots of human. To this end, we propose a novel video summarization framework named Attentive encoder-decoder networks for Video Summarization (AVS), in which the encoder uses a Bidirectional Long Short-Term Memory (BiLSTM) to encode the contextual information among the input video frames. As for the decoder, two attention-based LSTM networks are explored by using additive and multiplicative objective functions, respectively. Extensive experiments are conducted on three video summarization benchmark datasets, i.e., SumMe, and TVSum. The results demonstrate the superiority of the proposed AVS-based approaches against the state-of-the-art approaches,with remarkable improvements from 0.8% to 3% on two datasets,respectively..

研究の動機と目的

大規模な動画コンテンツの効率的な閲覧と検索を促進するため、コンパクトで有益な要約を生成する。
動画要約を、フレーム列をキーストー列へマッピングするシーケンス対シーケンス問題として定式化する。
注意機構付きBiLSTMエンコーダと注意機構付きLSTMデコーダを活用して、フレームレベルの重要性をモデル化する。
AVS内で2つの注意機構（加法的と multiplicative）を開発し、人間の注釈に導かれるフレームの重要性を学習する。
2つのベンチマークデータセットで、最先端の教師あり・教師なし手法に対して優れた性能を示す。

提案手法

ビデオフレーム全体の文脈情報を捉えるためにBidirectional LSTM (BiLSTM)エンコーダを用いる。
αt,i の重みで encoder annotations vt の加重和としてコンテキストベクトル Vt を計算する注意機構付きLSTMデコーダを組み込む。
デコーダ状態とエンコーダ出力の関連性を測る2つのスコアリング方式（加法的：A-AVS、乘法的：M-AVS）を提案する。
デコーダからフレームレベルの重要性スコアを生成し、Kernel Temporal Segmentation (KTS) を用いてショットレベルのスコアに変換する。
長さ予算の下でキーストを選択する0/1ナップサック最適化を解き、最終的な動画要約を形成する。
GoogleNetベースの特徴量とF-measureを評価指標として、2つのデータセット（SumMe, TVSum）を用いて評価する。

実験結果

リサーチクエスチョン

RQ1注意機構を備えたエンコーダ-デコーダアーキテクチャは、固定コンテキストのエンコーダよりも情報量のあるフレームにより効果的に焦点を合わせることで、監督付き動画要約を改善できるか。
RQ2加法的および乗法的な注意形式は、デコーダ出力とフレームレベルの視覚特徴を整合させるうえで異なる利得をもたらすか。
RQ3AVSの派生型はSumMeおよびTVSumで、最先端の教師あり・教師なし手法とどう比較されるか。
RQ4注意機構とデータ拡張が要約性能に与える影響はどうか。

主な発見

Dataset	Method	Feature	Supervised/unsupervised	F-score
SumMe	SUM-GAN_{dpp}	GoogleNet	unsupervised	39.1
SumMe	Gygli et al.	DeCAF	supervised	39.7
SumMe	Zhang et al.	AlexNet	supervised	40.9
SumMe	vsLSTM	GoogleNet	supervised	37.6
SumMe	dppLSTM	GoogleNet	supervised	38.6
SumMe	SUM-GAN_{sup}	GoogleNet	supervised	41.7
SumMe	Li et al.	VGGNet-16	supervised	43.1
SumMe	A-AVS(ours)	GoogleNet	supervised	43.9
SumMe	M-AVS(ours)	GoogleNet	supervised	44.4
TVSum	TVSum [25]	HoG+GIST+SIFT	unsupervised	51.3
TVSum	SUM-GAN_{dpp}	GoogleNet	unsupervised	51.7
TVSum	vsLSTM	GoogleNet	supervised	54.2
TVSum	dppLSTM	GoogleNet	supervised	54.7
TVSum	SUM-GAN_{sup}	GoogleNet	supervised	56.3
TVSum	Li et al.	VGGNet-16	supervised	52.7
TVSum	A-AVS(ours)	GoogleNet	supervised	59.4
TVSum	M-AVS(ours)	GoogleNet	supervised	61.0

AVS派生型（A-AVSとM-AVS）は、SumMeおよびTVSumでF-scoreにおいて最先端手法を上回る。
M-AVSは両データセットで一般的にA-AVSより高い性能を示す。
注意機構を用いたAVSは、非注意LSTMベースライン（LSTM-VS）をF-scoreで6-10%向上させる。
注意は約9フレームでスケールし、KTSセグメンテーション後のショット長と整合することを示唆する。
外部データセットを取り入れたデータ拡張は、SumMeとTVSumの両方でF-scoreの一貫した向上をもたらす。
AVS手法は、ベースラインと比較してより均一に分布した高重要度のショット選択という定性的特徴を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。