QUICK REVIEW

[論文レビュー] Weakly Supervised Dense Video Captioning

Zhiqiang Shen, Jianguo Li|arXiv (Cornell University)|Apr 5, 2017

Multimodal Machine Learning Applications参考文献 53被引用数 27

ひとこと要約

本論文は、領域・系列のアノテーションに代えてビデオレベルの文アノテーションのみを用いる弱教師付きの高密度動画字幕生成手法を提案する。この手法は、高価な領域・系列アノテーションを回避し、多様で情報豊富な複数の字幕を生成する。視覚的・語彙的整合性の弱教師付き学習に語彙的完全畳み込みネットワーク（Lexical-FCN）を採用し、多様な領域・系列の発見にはサブモジュラー最大化を、字幕生成には系列から系列へのモデリングを用いる。MSR-VTTで最先端の性能を達成し、1つの字幕で先行手法を大きく上回った。

ABSTRACT

This paper focuses on a novel and challenging vision task, dense video captioning, which aims to automatically describe a video clip with multiple informative and diverse caption sentences. The proposed method is trained without explicit annotation of fine-grained sentence to video region-sequence correspondence, but is only based on weak video-level sentence annotations. It differs from existing video captioning systems in three technical aspects. First, we propose lexical fully convolutional neural networks (Lexical-FCN) with weakly supervised multi-instance multi-label learning to weakly link video regions with lexical labels. Second, we introduce a novel submodular maximization scheme to generate multiple informative and diverse region-sequences based on the Lexical-FCN outputs. A winner-takes-all scheme is adopted to weakly associate sentences to region-sequences in the training phase. Third, a sequence-to-sequence learning based language model is trained with the weakly supervised information obtained through the association process. We show that the proposed method can not only produce informative and diverse dense captions, but also outperform state-of-the-art single video captioning methods by a large margin.

研究の動機と目的

高密度動画字幕生成における領域・系列レベルのアノテーションの欠如に応じ、領域・系列または文から領域・系列への対応付けのアノテーションが一切不要な学習を可能にする。
弱教師付きビデオデータから情報豊かで多様な領域・系列を自動で発見する。
文から領域・系列への対応付けに強い教師信号を必要とせず、高品質で多様な字幕を生成する。
弱教師付きモデルとオラクルシステムの間の性能格差を是正する。

提案手法

文に含まれる語彙的単語を動画内の空間グリッド領域にマッピングする弱教師付きマルチインスタンスマルチラベル学習フレームワーク「Lexical-FCN」を提案する。
Lexical-FCNの活性化スコアに基づき、多様で情報豊かな領域・系列を発見するためのサブモジュラー最大化スキームを導入する。
訓練中に正解アノテーションが不要な「勝者1体」戦略を採用し、文を生成された領域・系列に弱く関連付ける。
弱く関連付けられた領域・系列と文のペairを用いて微調整された系列から系列への言語モデルを用い、滑らかで文脈的に適切な字幕を生成する。
文の類似度を計算し、LSA（潜在的意味解析）を用いて文の表現を埋め込み、コサイン類似度を用いて字幕の多様性を評価する。
性能比較の上限としてオラクル再ランク付けと関連付け（OSR+ORE）を用い、弱教師付きと完全教師付き性能の差を評価する。

実験結果

リサーチクエスチョン

RQ1領域・系列または文から領域・系列への対応付けのアノテーションが一切ない状況でも、高密度動画字幕生成が効果的に学習可能か？
RQ2サブモジュラー最大化は、弱教師付きの視覚的・語彙的活性化から多様で情報豊かな領域・系列を効果的に発見できるか？
RQ3弱教師付きモデルは、完全教師付きまたはオラクルシステムと比較してどの程度の性能を示すか？
RQ4生成された字幕の多様性は、人間がアノテートした正解字幕と同等か、それ以上か？

主な発見

提案手法はMSR-VTTの検証セットでCIDErスコア37.3を達成し、最先端の単一字幕生成手法を大きく上回った。
モデルが生成した最良の1つの字幕もCIDErスコア37.3を記録し、MSR-VTTで前回のSOTAより11.2ポイント高い。
生成された字幕の多様性スコア（0.501）は、元の20件のヒューマンアノテート正解字幕（0.463）を上回っており、より優れた多様性を示している。
オラクル上界（OSR+ORE）との性能差は比較的小さく、上位5件の平均適合率がオラクルの90.4％に達しており、弱教師付きにもかかわらず優れた一般化性能を示している。
ビデオレベルのアノテーションのみで高い性能を達成したため、弱教師付き高密度動画字幕生成の実現可能性と有効性を示した。
定性的な結果と多様性評価から、モデルは複数の領域と時間セグメントにわたり意味的に多様で文脈的に適切な字幕を生成していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。