QUICK REVIEW

[論文レビュー] Video captioning with recurrent networks based on frame- and video-level features and visual content classification

Rakshith Shetty, Jorma Laaksonen|arXiv (Cornell University)|Dec 9, 2015

Multimodal Machine Learning Applications参考文献 17被引用数 19

ひとこと要約

この論文では、再帰的ニューラルネットワークを用いた動画キャプション生成システムを提案する。フレームレベルの特徴（事前学習済みのCNNを用いたキーフレームから得る）、動画レベルの特徴（密なトレイジェクトリ）、および視覚的コンテンツ分類器の出力（80クラスのSVM）を組み合わせ、記述的なキャプションを生成する。主な貢献は、LSMDC 2015ベンチマークにおいて、分類器出力を初期LSTM入力として使用し、密なトレイジェクトリ特徴を恒常的入力として使用した場合が最良の性能を示すことを実証したことである。ビームサイズ1が、より一般的な文の生成を減らすため、大きなビームサイズよりも優れている。

ABSTRACT

In this paper, we describe the system for generating textual descriptions of short video clips using recurrent neural networks (RNN), which we used while participating in the Large Scale Movie Description Challenge 2015 in ICCV 2015. Our work builds on static image captioning systems with RNN based language models and extends this framework to videos utilizing both static image features and video-specific features. In addition, we study the usefulness of visual content classifiers as a source of additional information for caption generation. With experimental results we show that utilizing keyframe based features, dense trajectory video features and content classifier outputs together gives better performance than any one of them individually.

研究の動機と目的

静的画像キャプション生成の改善を図るため、動画固有の時間的特徴を組み込んだ動画キャプション生成システムの開発。
COCOで学習された視覚的コンテンツ分類器が、映画クランプのキャプション生成に有益であるかどうかの調査。
LSMDC 2015チャレンジにおけるキャプション生成の最適な特徴入力アーキテクチャ（フレームレベル、動画レベル、分類器出力）の特定。
推論時のビームサイズがキャプション品質および多様性に与える影響の評価。

提案手法

VGG-16、VGG-19、GoogLeNetの3つの事前学習済みCNNを用いてキーフレーム特徴を抽出し、空間ピラミッドプーリングと平均/最大プーリングを組み合わせて耐性を高めた。
15フレームのトレイジェクトリを用いて動画クリップから密なトレイジェクトリ特徴を計算し、1000次元のヒストグラムに量子化。HOG、MBHx、MBHy、HOF記述子と組み合わせて5000次元の動画特徴を構成。
COCO 2014トレーニング画像を用いて80クラスの二値SVM分類器を学習し、各キーフレームのオブジェクトカテゴリ存在確率を80次元のクラス所属ベクトルとして出力。
LSTMネットワークを用いてキャプションを生成。初期隠れ状態をSVM分類器出力で初期化し、各時刻に恒常的に入力される動画特徴（密なトレイジェクトリ）を供給。
COCOで学習されたモデル出力をLSMDCの語彙に一致させるため、語彙変換ルールを適用。例：'man' や 'person' を 'SOMEONE' に置換。
LSMDC 2015テストセットを用いてBLEU、METEOR、ROUGE、CIDErスコアを評価。異なる特徴入力とビームサイズを用いた構成を比較。

実験結果

リサーチクエスチョン

RQ1フレームレベル特徴、動画レベル特徴、視覚的コンテンツ分類器出力の組み合わせが、単一の特徴タイプを使用する場合よりも動画キャプション性能を向上させるか？
RQ2COCOで事前学習された視覚的コンテンツ分類器（SVM）が、LSMDC 2015データセットの映画クランプのキャプション生成に有益か？
RQ3LSTMベースのキャプションモデルにおける特徴入力（初期 vs 恒常的）の最適なアーキテクチャ構成は何か？
RQ4推論時のビームサイズが、このキャプションフレームワークにおけるキャプション品質および文の多様性に与える影響は？

主な発見

SVM分類器出力を初期LSTM入力とし、密なトレイジェクトリ特徴を恒常的入力とするモデル（モデル9：cls+traj）が、LSMDC 2015の盲検査セットにおいて、4つの評価指標すべてで最高の性能を示した。
このモデルはCIDErスコア104.2を達成し、テストされたすべての構成の中で最高であった。これは、基準記述と一致するキャプション品質が優れていることを示している。
動画レベルの密なトレイジェクトリ特徴を用いることで、キーフレーム特徴のみに依存するモデルを著しく上回り、時間的運動パターンの価値が裏付けられた。
ビームサイズ1では平均文長が5.33語であったのに対し、ビームサイズ5では平均文長が3.79語に減少し、より一般的で記述性の低い出力となった。
大きなビームサイズでは、モデルが「SOMEONE looks at SOMEONE」のような高尤度だが過度に一般的なフレーズを優先し、結果として性能が低下した。
キーフレーム特徴と動画レベル特徴の組み合わせは、単独で使用する場合よりも優れた結果をもたらし、相補的な情報の恩恵があることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。