Skip to main content
QUICK REVIEW

[論文レビュー] Show, Adapt and Tell: Adversarial Training of Cross-domain Image Captioner

Tseng-Hung Chen, Yuan-Hong Liao|arXiv (Cornell University)|May 2, 2017
Multimodal Machine Learning Applications参考文献 34被引用数 30
ひとこと要約

本論文は、ペaired学習データが存在しない条件下で、ソースドメイン(例:MSCOCO)からターゲットドメイン(例:CUB-200)に画像キャプション生成モデルを適応させるための敵対的訓練フレームワークを提案する。2つのクライアント(ドメイン専用とマルチモーダル)を導入し、ポリシー勾配学習によりキャプション生成器をガイドする。さらに推論段階でクライアントベースの計画法を適用することで、品質を向上させ、CUB-200でCIDEr-Dスコアに21.8%の向上を達成し、計画法を適用すると4.5%のさらなる向上を示した。

ABSTRACT

Impressive image captioning results are achieved in domains with plenty of training image and sentence pairs (e.g., MSCOCO). However, transferring to a target domain with significant domain shifts but no paired training data (referred to as cross-domain image captioning) remains largely unexplored. We propose a novel adversarial training procedure to leverage unpaired data in the target domain. Two critic networks are introduced to guide the captioner, namely domain critic and multi-modal critic. The domain critic assesses whether the generated sentences are indistinguishable from sentences in the target domain. The multi-modal critic assesses whether an image and its generated sentence are a valid pair. During training, the critics and captioner act as adversaries -- captioner aims to generate indistinguishable sentences, whereas critics aim at distinguishing them. The assessment improves the captioner through policy gradient updates. During inference, we further propose a novel critic-based planning method to select high-quality sentences without additional supervision (e.g., tags). To evaluate, we use MSCOCO as the source domain and four other datasets (CUB-200-2011, Oxford-102, TGIF, and Flickr30k) as the target domains. Our method consistently performs well on all datasets. In particular, on CUB-200-2011, we achieve 21.8% CIDEr-D improvement after adaptation. Utilizing critics during inference further gives another 4.5% boost.

研究の動機と目的

  • ソースドメインとターゲットドメインの間で顕著なドメインシフトが生じるが、ペアドデータが存在しない状況において、画像キャプション生成器の適応を解決すること。
  • 画像と文のペアデータが存在しない状況でも、ソースドメイン(例:MSCOCO)から多様なターゲットドメインへのゼロショット適応を可能にすること。
  • 訓練段階および推論段階で、追加の教師信号なしに敵対的クライアントを活用してキャプション品質を向上させること。
  • テスト時におけるクライアントフィードバックを統合することで生成品質を向上させる、クライアントベースの計画メカニズムの開発

提案手法

  • ドメイン専用クライアント(ターゲットドメインの文のスタイル類似度を評価)とマルチモーダルクライアント(画像-キャプションペアの妥当性を検証)を備えた二重クライアント敵対的フレームワークを導入。
  • モンテカルロロールアウトを用いて、ポリシー勾配更新のための生成キャプションの累積報酬を推定し、キャプション生成器のエンドツーエンド学習を可能にする。
  • キャプション生成器を、ターゲットドメインの実際の文と区別がつかない(ドメインクライアントによる評価)および画像-キャプションペアとして妥当な(マルチモーダルクライアントによる評価)出力を生成するように訓練。
  • クライアントフィードバックに基づいてポリシー勾配最適化を実行し、ターゲットドメインの分布に整合するようにキャプション生成器のパラメータを更新。
  • 推論段階で、ポリシーネットワークの確率だけでなく、クライアントの信頼度も考慮して語を選択するクライアントベースの計画法を提案。特に、不確実性が高い場合に有効である。
  • トップ確率が2番目の確率に近い場合に、グリーディ選択からクライアント情報に基づく意思決定に切り替えるためのしきい値ベースのメカニズムを採用し、誤りを低減。

実験結果

リサーチクエスチョン

  • RQ1ペアドデータが存在しない状況で、二重クライアントを用いた敵対的訓練が、ソースドメインのキャプション生成器をターゲットドメインに効果的に適応させられるか。
  • RQ2ドメインクライアントとマルチモーダルクライアントの統合が、クロスドメイン環境下でのキャプション品質にどのように寄与するか。
  • RQ3推論段階でのクライアントベースの計画法が、追加の教師信号やタグなしにキャプション品質をさらに向上させられるか。
  • RQ4クロスドメイン適応において、ドメインクライアントとマルチモーダルクライアントの相対的寄与度はどの程度か。
  • RQ5本手法は、ドメインシフトが顕著な多様なターゲットドメインに対しても一般化可能か。

主な発見

  • CUB-200-2011データセットでは、適応後、ソースドメインの事前学習モデルに比べてCIDEr-Dスコアが21.8%向上した。
  • 推論段階でクライアントベースの計画法を適用することで、CUB-200におけるCIDEr-Dスコアがさらに4.5%向上し、生成段階でのクライアントフィードバックの価値を示した。
  • アブレーションスタディの結果、ドメインクライアントとマルチモーダルクライアントの両方が不可欠であることが確認され、片方だけを用いると性能が劣化した。
  • 本手法は、TGIFやFlickr30kを含む4つのターゲットドメインにおいても一貫して性能向上を示し、通常のドメインシフトに対しても有効であった。
  • 特にCUB-200 や Oxford-102 といったドメインシフトが顕著な領域では、グリーディ法やビームサーチに比べ、不確実性に起因する誤りを低減する点でクライアントベースの計画法が優れた性能を示した。
  • 逆方向の適応(Flickr30k → MSCOCO)においても、強力な結果を達成しており、ドメイン間でのロバストネスと一般化能力を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。