QUICK REVIEW

[論文レビュー] Diverse and Controllable Image Captioning with Part-of-Speech Guidance

Aditya Deshpande, Jyoti Aneja|arXiv (Cornell University)|May 31, 2018

Multimodal Machine Learning Applications参考文献 27被引用数 18

ひとこと要約

本稿では、品詞（POS）タグを条件付け機構として用いる多様性があり制御可能な画像キャプション生成手法を提案する。POSタグを解釈可能な言語的事前知識として活用することで、モデルはより多様なキャプションを生成し、文の自然さと正確性が向上する。従来手法に比べ、多様性と標準的なキャプション評価指標の両面で優れている。

ABSTRACT

Automatically describing an image is an important capability for virtual assistants. Significant progress has been achieved in recent years on this task of image captioning. However, classical prediction techniques based on maximum likelihood trained LSTM nets don't embrace the inherent ambiguity of image captioning. To address this concern, recent variational auto-encoder and generative adversarial network based methods produce a set of captions by sampling from an abstract latent space. But, this latent space has limited interpretability and therefore, a control mechanism for captioning remains an open problem. This paper proposes a captioning technique conditioned on part-of-speech. Our method provides human interpretable control in form of part-of-speech. Importantly, part-of-speech is a language prior, and conditioning on it provides: (i) more diversity as evaluated by counting n-grams and the novel sentences generated, (ii) achieves high accuracy for the diverse captions on standard captioning metrics.

研究の動機と目的

潜在空間サンプリングに基づく従来の画像キャプションモデルにおける解釈不能性と制御不能性の問題に対処すること。
自然さや正確性を損なわず、キャプションの多様性を向上させること。
品詞タグを条件付け信号として用いる人間が解釈可能な制御機構を導入すること。
POS条件付けが多様性および標準的な評価指標における性能向上に寄与するかどうかを評価すること。
ブラックボックスな潜在変数モデルの代替として、より透明性があり制御可能な選択肢を提供すること。

提案手法

モデルは、デコード段階で制御信号として用いるために、キャプション生成プロセスを品詞タグに条件付けする。
アテンションを備えたシーケンス・ツー・シーケンスアーキテクチャを採用し、品詞タグを埋め込み、デコーダーの隠れ状態に組み込む。
最大尤度と、生成キャプションにおける品詞の一貫性を保つための正則化項を組み合わせた学習目的を採用する。
画像特徴から別個の品詞タガーを用いて品詞タグを予測し、画像と言語の共同モデリングを可能にする。
「名詞-動詞-名詞」などの所望の品詞パターンを指定することで、ゼロショット制御が可能となる。
POSアノテーション付きの画像-キャプションペア上でエンドツーエンドに学習させることで、言語的構造に対する分離可能な制御を可能にする。

実験結果

リサーチクエスチョン

RQ1品詞タグは、画像キャプション生成における効果的で解釈可能な制御機構として機能するか？
RQ2POSガイドドキャプションは、標準的な自己回帰的または潜在変数モデルと比較して多様性が向上するか？
RQ3品詞タグ条件付け下でも、自然さと正確性を維持したまま多様なキャプションを生成できるか？
RQ4品詞タグ条件付けは、BLEU、ROUGE、CIDErといった標準的なキャプション評価指標にどのように影響するか？
RQ5ユーザーは、品詞パターンを用いて生成キャプションの言語的構造をどの程度制御できるか？

主な発見

提案手法は、n-gramの多様性と新規文の生成増加を測定することで、より高いキャプション多様性を達成した。
POSガイドドキャプションは、BLEU、ROUGE、CIDErといった標準指標で高い性能を示し、自然さと関連性の向上を示している。
正確性を損なわず、多様なキャプションを生成できることから、多様性と品質のバランスが取れていることが実証された。
品詞タグへの条件付けにより、解釈可能で制御可能なキャプション生成が可能となり、ユーザーが言語的構造を指定できるようになった。
本手法は、多様性および指標スコアの両面で、従来の変分的および敵対的キャプションモデルを上回った。
言語的事前知識としての品詞タグの使用により、視覚的コンテンツから言語的制御を効果的に分離可能となった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。