Skip to main content
QUICK REVIEW

[論文レビュー] Object Relational Graph with Teacher-Recommended Learning for Video Captioning

Ziqi Zhang, Yaya Shi|arXiv (Cornell University)|Feb 26, 2020
Multimodal Machine Learning Applications参考文献 44被引用数 39
ひとこと要約

この論文は、オブジェクト関係グラフエンコーダとGCNベースの関係推論、および外部言語モデルを活用して動画キャプショニング性能を向上させる教師推奨学習戦略を提案します。

ABSTRACT

Taking full advantage of the information from both vision and language is critical for the video captioning task. Existing models lack adequate visual representation due to the neglect of interaction between object, and sufficient training for content-related words due to long-tailed problems. In this paper, we propose a complete video captioning system including both a novel model and an effective training strategy. Specifically, we propose an object relational graph (ORG) based encoder, which captures more detailed interaction features to enrich visual representation. Meanwhile, we design a teacher-recommended learning (TRL) method to make full use of the successful external language model (ELM) to integrate the abundant linguistic knowledge into the caption model. The ELM generates more semantically similar word proposals which extend the ground-truth words used for training to deal with the long-tailed problem. Experimental evaluations on three benchmarks: MSVD, MSR-VTT and VATEX show the proposed ORG-TRL system achieves state-of-the-art performance. Extensive ablation studies and visualizations illustrate the effectiveness of our system.

研究の動機と目的

  • フレーム間のオブジェクト間相互作用を通じて視覚表現を豊かにし、動画キャプションの品質向上を動機づける。
  • 訓練時に外部言語モデルからの言語知識を取り込むことで、長尾語彙分布に対処する。
  • 視覚的関係推論と教師指導型言語学習を組み合わせたトレーニング戦略を開発し、汎化を高める。

提案手法

  • GCNを用いてオブジェクト間の時空相互作用をモデル化する学習可能なObject Relational Graph (ORG)を構築する。
  • フレーム内の部分ORG (P-ORG) と動画全体にわたる完全ORG (C-ORG) の2つのグラフ変種を、上位kつの接続で実装する。
  • 外部言語モデル (ELM) を用いてソフトターゲットを生成し、言語的に多様な語彙提案で訓練を充実させる Teacher-Recommended Learning (TRL) を導入する。
  • Hard targetsのクロスエントロピーとELMからのソフトターゲットによるKL発散を組み合わせたジョイント損失でキャプショニングモデルを訓練する(L = lambda * L_KL + (1-lambda) * L_CE)。
  • グローバルおよびローカルの文脈特徴を取り入れた、時空的アテンションを備えた階層的デコーダを用いて語を生成する。

実験結果

リサーチクエスチョン

  • RQ1オブジェクトレベルの関係推論は動画キャプショニングの視覚表現をどのように改善できるか?
  • RQ2外部の言語知識をキャプショニングモデルに効果的に組み込んで長尾語彙分布を緩和できるか?
  • RQ3ORGベースの関係エンコーディングとTRLを組み合わせた場合、標準的な動画キャプショニングのベンチマークにどのような影響を与えるか?

主な発見

モデル特徴MSVD B@4MSVD METEORMSVD ROUGE-LMSVD CIDErMSR-VTT B@4MSR-VTT METEORMSR-VTT ROUGE-LMSR-VTT CIDEr
ORG-TRLInceptionResNetV2; C3D; FasterRCNN54.336.473.995.243.628.862.150.9
  • ORGエンコーダはGCNを介した相互作用をモデル化することでオブジェクト表現を向上させる(P-ORGとC-ORG)。
  • TRLはオフラインのELM(例: BERT)を活用したソフトターゲットを提供し、長尾語の問題を緩和し、キャプションの語彙多様性を向上させる。
  • ORG-TRLの結合システムはMSVD、MSR-VTT、VATEXのベンチマークで最先端の性能を達成する。
  • アブレーション研究はトップ-k設定(k=5)のC-ORGが最良の結果を与え、TRLは一貫して性能を向上させることを示す。
  • 定性的結果はオブジェクトの関係と動作を捉えたより豊かで詳細なキャプションを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。