QUICK REVIEW

[論文レビュー] A Dataset for Movie Description

Anna Rohrbach, Marcus Rohrbach|arXiv (Cornell University)|Jan 12, 2015

Multimodal Machine Learning Applications参考文献 61被引用数 52

ひとこと要約

本論文は、72部のフルHD映画から得た54,000件以上の文-動画ペアを含む大規模かつ時間的に整合したデータセットを紹介する。このデータセットは、記述的ビデオサービス（DVS）のトランスクリプトと映画の台本を組み合わせたものである。DVSは台本よりも視覚的に根拠のあるより正確な記述を提供することが示され、意味解析と視覚的特徴の統合により、動画記述モデルの性能が向上する。SMTベースのアプローチは最近傍探索ベースラインを上回り、オープンドメインの動画記述タスクにおいて優れた性能を発揮する。

ABSTRACT

Descriptive video service (DVS) provides linguistic descriptions of movies and allows visually impaired people to follow a movie along with their peers. Such descriptions are by design mainly visual and thus naturally form an interesting data source for computer vision and computational linguistics. In this work we propose a novel dataset which contains transcribed DVS, which is temporally aligned to full length HD movies. In addition we also collected the aligned movie scripts which have been used in prior work and compare the two different sources of descriptions. In total the Movie Description dataset contains a parallel corpus of over 54,000 sentences and video snippets from 72 HD movies. We characterize the dataset by benchmarking different approaches for generating video descriptions. Comparing DVS to scripts, we find that DVS is far more visual and describes precisely what is shown rather than what should happen according to the scripts created prior to movie production.

研究の動機と目的

視覚障害者向けのアクセスを目的として、記述的ビデオサービス（DVS）からの大規模かつ時間的に整合した動画記述データセットの作成。
DVSトランスクリプトと映画台本を、動画内容への視覚的正確性と関連性の観点から比較する。
意味解析と視覚的特徴を用いて、この新規データセット上で最先端の動画記述モデルを評価する。
DVSが前プロダクション台本よりも正確で視覚的に根拠のある記述を提供することを実証する。
オープンドメインの動画記述における長期的意味的依存関係および物語理解の研究を可能にする。

提案手法

クラウドソーシングによるトランスクリプションを用いてブルーレイディスクのDVS音声を文字起こし、フルHD映画のセグメントに時間的に整合させる。
先行研究から得た映画台本を収集・整合させ、DVSとの並列コーパスを構築する。
意味解析器を用いてDVSおよび台本から主語-動詞-目的語-場所の三項組みを抽出し、最小頻度（30回または100回）でフィルタリングする。
統計的機械翻訳（SMT）フレームワークを用いて、視覚的特徴と解析済みラベルから記述を生成する。
視覚的特徴（DT、LSDA、PLACES、HYBRID）とCRFベースの系列モデリングを組み合わせ、文出力を予測する。
250件のテストスニペットについて人間によるアノテーションを実施し、正しさ、文法的正確性、関連性の観点から出力をランク付けしてモデルを評価する。

実験結果

リサーチクエスチョン

RQ1DVSの記述は、映像内容への正確性と関連性の観点から、映画台本と比較してどの程度視覚的に根拠があるか。
RQ2DVSおよび台本のテキストを意味解析することで、直接的な視覚的特徴マッチングに比べ、動画記述モデルの性能が向上するか。
RQ3LSDA、PLACES、HYBRIDなどの異なる視覚的特徴が、このデータセットにおける動画記述品質に果たす相対的寄与度は何か。
RQ4意味解析済みラベルを用いたSMTベースのアプローチは、最近傍探索ベースラインや視覚的ワードモデルに比べ、どのように動画記述を生成するか。
RQ5このデータセットは、オープンドメインの動画記述における長期的意味的依存関係および物語構造のモデリングをどの程度可能にするか。

主な発見

DVSの記述は、しばしば前プロダクション段階の誤りや不要な詳細を含む台本よりも、顕著に正確で視覚的に根拠のある記述である。
最近傍探索ベースラインにおいて、HYBRID視覚的特徴の組み合わせが最も優れた性能を示し、DT、LSDA、PLACESを上回った。
意味解析済みラベルを用いたSMTベースのアプローチは、最近傍探索ベースラインや視覚的ワードモデルを上回り、30回頻度閾値が100回閾値よりも優れた結果を示した。
語義の意味の違いを特定する（WSD）のラベルの使用は、テキストラベルよりもわずかに劣った性能を示した。これはWSDの誤りが原因と考えられる。
コーパスに含まれる実際のDVSおよび台本の文は、あらゆる自動手法よりも顕著に優れていた。これは、これらが強力なベースラインとしての価値を持つことを確認する。
このデータセットは物語構造や長期的依存関係のモデリングを可能にし、従来の画像および動画記述データセットを超える新たな研究機会を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。