[論文レビュー] Discriminability objective for training descriptive captions
本論文は、事前学習済みの画像キャプション検索モデルに基づく識別性損失をキャプション生成の訓練に追加する。これによりより識別性の高いキャプションが得られ、標準的なキャプション指標も改善される可能性がある。
One property that remains lacking in image captions generated by contemporary methods is discriminability: being able to tell two images apart given the caption for one of them. We propose a way to improve this aspect of caption generation. By incorporating into the captioning training objective a loss component directly related to ability (by a machine) to disambiguate image/caption matches, we obtain systems that produce much more discriminative caption, according to human evaluation. Remarkably, our approach leads to improvement in other aspects of generated captions, reflected by a battery of standard scores such as BLEU, SPICE etc. Our approach is modular and can be applied to a variety of model/loss combinations commonly proposed for image captioning.
研究の動機と目的
- 生成されたキャプションの識別性の欠如に対処する。
- 画像とキャプションの適合性を評価する検索モデルを利用した識別性損失を提案する。
- 既存のキャプション生成訓練フレームワークに識別性損失を組み込む。
- 識別性を強化した訓練が識別能力と標準的なキャプション指標の両方を改善することを示す。
提案手法
- 画像とキャプションの埋め込みモデルを事前訓練済みのものとして、共有空間で類似度スコア s(I,c) を計算する。
- 正しい画像-キャプションの組み合わせが負例よりマージン α だけ高くスコア付けされるように、対照的学習損失 L_CON を定義する。
- 識別性損失を、キャプション生成器からサンプルされたキャプションに対する期待値として定義する: 最小化 E[L_CON(c_hat,I)].
- 従来の目的(MLE または CIDEr)と識別性項を組み合わせた報酬を最大化するよう、キャプション生成器(FC および ATTN)を強化学習(REINFORCE)で訓練する。
- 任意で CIDEr を識別性と組み合わせて報酬とする: R = CIDEr(c_hat) − λ L_CON(c_hat,I).
- 基準を貪欲デコード出力とする自己批判的訓練スキームを提供する。
実験結果
リサーチクエスチョン
- RQ1識別性を重視した訓練目的は、キャプションを用いて正しい画像を distractor から識別する能力を向上させることができるか。
- RQ2識別性を訓練に取り入れると、BLEU、METEOR、ROUGE、CIDEr、SPICE などの標準的なキャプション指標に影響があるか。
- RQ3識別性目的は、異なるキャプションアーキテクチャ(FC と ATTN)および訓練制度(MLE/CIDEr)でも有効か。
- RQ4識別性重み λ が、生成されたキャプションの識別性と流暢さに与える影響は何か。
- RQ5提案された目的を使用したとき、機械的な識別性の向上が人間の判断と一致するか。
主な発見
- 識別性訓練は、検索モデルに対してより識別的なキャプションを生み出す(ターゲットと distractor の評価で精度が高い)。
- 識別性を取り入れると、キャプションと画像の一致を判断する際の人間の識別精度が向上する。
- 適度な λ の値で、標準的なキャプション指標(BLEU、METEOR、ROUGE、CIDEr、SPICE)を改善する可能性がある。
- ATTN+CIDER+DISC の組み合わせは、自動指標と識別性テストの両方で最も強い総合性能を示すことが多い。
- λ を高くすると識別性は向上するが、流暢さや他の指標が低下する可能性があり、彼らの実験では最適なトレードオフは λ ≈ 1 の周辺。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。