QUICK REVIEW

[論文レビュー] Generating Diverse and Accurate Visual Captions by Comparative Adversarial Learning

Dianqi Li, Qiuyuan Huang|arXiv (Cornell University)|Apr 3, 2018

Multimodal Machine Learning Applications参考文献 42被引用数 43

ひとこと要約

論文は、比較的関連性識別器とポリシー勾配トレーニングを用いて、画像ごとに正確で多様なキャプションを生成する比較的アドバーサル学習（CAL）フレームワークを提案し、多様性の点でベースラインを上回り、人間の判断と一致するキャプションを生成する。

ABSTRACT

We study how to generate captions that are not only accurate in describing an image but also discriminative across different images. The problem is both fundamental and interesting, as most machine-generated captions, despite phenomenal research progresses in the past several years, are expressed in a very monotonic and featureless format. While such captions are normally accurate, they often lack important characteristics in human languages - distinctiveness for each caption and diversity for different images. To address this problem, we propose a novel conditional generative adversarial network for generating diverse captions across images. Instead of estimating the quality of a caption solely on one image, the proposed comparative adversarial learning framework better assesses the quality of captions by comparing a set of captions within the image-caption joint space. By contrasting with human-written captions and image-mismatched captions, the caption generator effectively exploits the inherent characteristics of human languages, and generates more discriminative captions. We show that our proposed network is capable of producing accurate and diverse captions across images.

研究の動機と目的

画像間で正確であるだけでなく多様性を持つキャプションを生成する動機付け。
画像キャプションのための新しい比較的アドバーサル学習フレームワークを導入する。
比較的関連性識別器を活用してキャプション生成を人間に近い多様性へ導く。
セマンティックレベルのキャプション多様性指標を提案し、跨画像の多様性を評価する。
MSCOCO において多様性の改善とベースラインに対する競争力のある精度を示す。

提案手法

エンコーダ-デコーダアーキテクチャに基づくキャプション生成器 G を導入し、ランダム入力 z による確率的変動を組み込めるようにする。
比較的関連性識別器 D を提案し、候補キャプションを画像-キャプション結合空間内で人間作成キャプションや無関係なキャプションと比較してランキングする。
キャプション埋め込みと画像特徴とのコサイン類似度のソフトマックスを用いて比較的関連性スコア（cr-score）を定義する（式 3）。
生成トークンごとに中間報酬 Q を近似するために K 回のローアウトシミュレーションを用いたポリシー勾配で G を訓練する（式 5–8）。
事前訓練として MLE で G を、比較目的で D を事前訓練した後、ローアウトサイズ K と softmax のスケーリング用 gamma パラメータを用いた共同対向訓練を行う。

実験結果

リサーチクエスチョン

RQ1比較的アドバーサリアル学習は跨画像のキャプション多様性を保ちながら精度を向上させることができるか。
RQ2比較セットに人間作成キャプションを含めることで識別器が生成器に対してより豊かな報酬を提供するか。
RQ3CAL は二値識別器（G-GAN）および標準の MLE と比較して、多様性と自動/人間評価の品質の点でどのようか。
RQ4セマンティックレベルの多様性指標は跨画像のキャプション多様性を効果的に捉えられるか。
RQ5サンプリング、ノイズベクター、比較識別器などの構成要素が多様性に与える影響はどれか。

主な発見

モデル	BLEU4	METEOR	ROUGE	CIDEr	SPICE
Human	0.190	0.240	0.465	0.861	0.208
MLE	0.297	0.252	0.519	0.921	0.175
G-GAN	0.208	0.224	0.467	0.705	0.156
CAL (ours)	0.213	0.225	0.472	0.721	0.161

CAL は自動指標に基づくMSCOCOテストセットでベースラインより高い多様性を示しつつ、精度は競争力を維持する。
人間評価では CAL のキャプションが MLE および G-GAN のキャプションより好まれ、人間らしい記述をより多く生成する。
CAL はキャプションと画像の検索リコールを改善し、G-GAN および MLE を上回り、識別性と多様性が向上していることを示す。
セマンティックレベルの多様性指標はキャプション埋め込み特徴に基づき跨画像の多様性を捉え、CAL の優位性を示す。
アブレーション研究は比較識別器とローアウト報酬が多様性の向上に寄与することを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。