QUICK REVIEW

[論文レビュー] Hierarchical LSTM with Adjusted Temporal Attention for Video Captioning

Jingkuan Song, Zhao Guo|arXiv (Cornell University)|Jun 5, 2017

Multimodal Machine Learning Applications参考文献 21被引用数 36

ひとこと要約

本稿では、動画キャプション生成のための階層的LSTM（hLSTMat）を提案する。このモデルは、視覚的特徴と言語的文脈の両方を動的に選択することで、視覚的でない語（例：'the', 'a'）に対して不要な視覚的注意を抑制する。時間的注意を用いてフレーム選択を行い、視覚的でない語に対しては調整済みの注意メカニズムで不要な視覚的注意を抑えることで、MSVD（53.0% B@4, 33.6% METEOR）およびMSR-VTT（38.3% B@4, 26.3% METEOR）で最先端の性能を達成した。

ABSTRACT

Recent progress has been made in using attention based encoder-decoder framework for video captioning. However, most existing decoders apply the attention mechanism to every generated word including both visual words (e.g., "gun" and "shooting") and non-visual words (e.g. "the", "a"). However, these non-visual words can be easily predicted using natural language model without considering visual signals or attention. Imposing attention mechanism on non-visual words could mislead and decrease the overall performance of video captioning. To address this issue, we propose a hierarchical LSTM with adjusted temporal attention (hLSTMat) approach for video captioning. Specifically, the proposed framework utilizes the temporal attention for selecting specific frames to predict the related words, while the adjusted temporal attention is for deciding whether to depend on the visual information or the language context information. Also, a hierarchical LSTMs is designed to simultaneously consider both low-level visual information and high-level language context information to support the video caption generation. To demonstrate the effectiveness of our proposed framework, we test our method on two prevalent datasets: MSVD and MSR-VTT, and experimental results show that our approach outperforms the state-of-the-art methods on both two datasets.

研究の動機と目的

視覚的信号を必要としない語（例：'the', 'a'）に注意メカニズムを適用することで、キャプション生成に誤解を招く問題に対処する。
視覚的情報に依存するか、言語的文脈に依存するかを自動的に判断するフレームワークを設計し、注意の効率性と正確性を向上させる。
低レベルの視覚的特徴と高レベルの言語的文脈を同時にモデル化する階層的LSTMを統合し、より豊かな時間的・意味的表現を実現する。
時間的注意と調整済み時間的注意メカニズムを組み合わせることで、標準の動画キャプションベンチマークで既存手法を上回ることを目的とする。

提案手法

モデルは、各動画フレームから空間的特徴を抽出するために2次元畳み込みニューラルネットワーク（ResNet-152）を用いる。
2層の階層的LSTMが視覚的特徴と言語的文脈を処理し、多スケールの時間的モデリングを可能にする。
時間的注意は、現在の語に関連するフレームを、各デコードステップで選択する。
調整済み時間的注意は、視覚的特徴を用いるか、言語的文脈にのみ依存するかを決定し、関係のない視覚的注意によるノイズを低減する。
フレームワークは、語の種別（視覚的 vs. 視覚的でない）に応じて動的に注意をルーティングすることで、視覚的および言語的モデリングを同時に最適化する。
モデルは、推論時にビームサーチを用いた交差エントロピー損失により、エンドツーエンドで学習される。

実験結果

リサーチクエスチョン

RQ1視覚的信号を必要としない語に対して、視覚的信号の使用タイミングを動的に決定することで、注意のオーバーヘッドを低減できるか？
RQ2視覚的特徴と言語的特徴の階層的モデリングは、標準のLSTMと比較して、動画キャプション生成性能をどのように向上させるか？
RQ3視覚的でない語に対して視覚的注意を抑制する調整済み注意メカニズムは、標準の注意メカニズムよりも優れた性能を発揮するか？
RQ4提案されたフレームワークは、MSVDおよびMSR-VTTの両データセットで最先端の手法を上回るか？
RQ5時間的注意と調整済み時間的注意の統合は、キャプションの品質と意味的カバレッジにどのように影響を与えるか？

主な発見

MSVDデータセットでは、hLSTMatは53.0% B@4および33.6% METEORを達成し、最良のベースライン（p-RNN）よりもB@4で8.7%、METEORで2.5%優れている。
調整済み注意を備えたモデル（hLSTMat）は、ベースラインのhLSTMtよりもB@4で0.9%、METEORで0.3%向上させ、調整メカニズムの有効性を示した。
MSR-VTTデータセットでは、hLSTMatは38.3% B@4および26.3% METEORを達成し、両指標で新たな最先端性能を樹立した。
人的評価では、hLSTMatは全体的なキャプション品質で最高評価を受け、正確性においても競争力があるが、情報カバレッジではp-RNNにやや劣った。
アブレーションスタディにより、階層的LSTMと調整済み時間的注意の組み合わせが、標準の注意または単一の注意メカニズムよりも顕著に性能を向上させることを確認した。
モデルは、複数のネットワーク（例：VGGNet, C3D, 光学フロー）を用いる手法よりも、ResNet-152の特徴のみを用いても優れた結果を達成しており、その効率性と有効性を証明した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。