Skip to main content
QUICK REVIEW

[論文レビュー] Recurrent Topic-Transition GAN for Visual Paragraph Generation

Xiaodan Liang, Zhiting Hu|arXiv (Cornell University)|Mar 21, 2017
Multimodal Machine Learning Applications参考文献 31被引用数 77
ひとこと要約

RTT-GAN は paragraph generator と multi-level discriminators を共同で学習し、多様で意味的に整合の取れた視覚パラグラフを生成する。単一文キャプションのみを用いる半教師あり学習。

ABSTRACT

A natural image usually conveys rich semantic content and can be viewed from different angles. Existing image description methods are largely restricted by small sets of biased visual paragraph annotations, and fail to cover rich underlying semantics. In this paper, we investigate a semi-supervised paragraph generative framework that is able to synthesize diverse and semantically coherent paragraph descriptions by reasoning over local semantic regions and exploiting linguistic knowledge. The proposed Recurrent Topic-Transition Generative Adversarial Network (RTT-GAN) builds an adversarial framework between a structured paragraph generator and multi-level paragraph discriminators. The paragraph generator generates sentences recurrently by incorporating region-based visual and language attention mechanisms at each step. The quality of generated paragraph sentences is assessed by multi-level adversarial discriminators from two aspects, namely, plausibility at sentence level and topic-transition coherence at paragraph level. The joint adversarial training of RTT-GAN drives the model to generate realistic paragraphs with smooth logical transition between sentence topics. Extensive quantitative experiments on image and video paragraph datasets demonstrate the effectiveness of our RTT-GAN in both supervised and semi-supervised settings. Qualitative results on telling diverse stories for an image also verify the interpretability of RTT-GAN.

研究の動機と目的

  • 単一文キャプションを超える豊富で多様な視覚パラグラフの生成を動機づける。
  • 長文説明を導くための段落コーパスを活用する半教師ありフレームワークを提案する。
  • 階層的文脈に条件付けられた領域ベースの注意機構を用いて、整合性のある複数の文からなる生成を行うジェネレータを開発する。
  • 文レベルとトピック移行の判別器を用いて、妥当性と一貫したトピック遷移を保証する。
  • 監督付きおよび半監視設定で、画像および動画のパラグラフデータセット上で有効性を示す。

提案手法

  • 密なキャプション付けで検出された意味的領域上の領域認識視覚・言語注意機構を用いて、文を再帰的に生成するジェネレータを構築する。
  • 階層的注意を備えたパラグラフ RNN、文 RNN、語 RNN を用いて、複数文からなるパラグラフを生成する。
  • 各文のトピックベクトルを形成し局所領域フレーズをコピーするために、空間的視覚注意と言語注意を組み込む。
  • Wasserstein GAN 目的で生成を導くため、文の妥当性 D^s およびトピック遷移の一貫性 D^r の二つの判別器を採用する。
  • 監督データには再構成(言語モデル)損失を用い、SeqGAN 的な離散テキストサンプルをバックプロパゲーションするためのモンテカルロ展開戦略を採用する。
  • 単独の段落コーパスから長文パラグラフ構築を学習しつつ、監視には単一文の画像キャプションを用いることで半教師あり設定へ訓練を拡張する。
Figure 1: Our RTT-GAN is able to automatically produce generic paragraph descriptions shown in (a), and personalized descriptions by manipulating first sentences (highlighted in red), shown in (b).
Figure 1: Our RTT-GAN is able to automatically produce generic paragraph descriptions shown in (a), and personalized descriptions by manipulating first sentences (highlighted in red), shown in (b).

実験結果

リサーチクエスチョン

  • RQ1局所的な意味領域を推論して、画像/動画に対して多様で整合性のある長文パラグラフを RTT-GAN が生成できるか?
  • RQ2単一文キャプションのみが利用可能な場合、段落コーパスを用いた半教師あり学習はパラグラフ生成を改善するか?
  • RQ3領域ベースの注意とデュアル判別器が、ベースラインの画像からパラグラフ生成法と比較してパラグラフ品質に与える影響は何か?
  • RQ4最初の文を操作して個人化されたパラグラフを生成し、整合性を保てるか?
  • RQ5動作特徴を用いた動画パラグラフ生成へ効果的に拡張できるか?

主な発見

方法METEORCIDErBLEU-1BLEU-2BLEU-3BLEU-4
RTT-GAN (Semi+) 18.3920.3642.0625.3514.929.21
RTT-GAN (Semi-) 14.0813.0739.2222.5013.347.75
RTT-GAN (Fully-) 17.1216.8741.9924.8614.899.03
RTT-GAN (Fully- w/o discriminator) 16.5715.0741.8624.3314.568.99
RTT-GAN (Semi- w/o discriminator) 12.6812.7737.2020.5112.086.91
Human 19.2228.5542.8825.6815.559.66
  • 完全教師あり設定で、完全な判別器を備えた RTT-GAN は画像-パラグラフ指標(METEOR、CIDEr、BLEU)でベースラインを上回る。
  • 半教師付き設定では、RTT-GAN (Semi-) は監督に単一文キャプションのみを用いながら、CIDEr および METEOR の競争力のあるスコアを達成する。
  • 敵対的判別器は性能を大幅に向上させる;半教師付き設定でそれらを取り除くと CIDEr が最大で 4.11% 減少する。
  • 領域ベースの注意機構と言語注意成分は、非注意バリアントと比べて指標を大幅に改善する。
  • 最初の文を変更することで個別化されたパラグラフ生成をサポートし、様々でトピック整合的な説明を生み出す。
  • RTT-GAN は動画パラグラフへも効果的に拡張され、TACoS-MultiLevel で BLEU-4, METEOR, CIDEr が優位になる。
Figure 2: Our RTT-GAN alternatively optimizes a structured paragraph generator and two discriminators following an adversarial training scheme. The generator recurrently produces each sentence by reasoning about local semantic regions and preceding paragraph state. Each synthesized sentence is then
Figure 2: Our RTT-GAN alternatively optimizes a structured paragraph generator and two discriminators following an adversarial training scheme. The generator recurrently produces each sentence by reasoning about local semantic regions and preceding paragraph state. Each synthesized sentence is then

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。