QUICK REVIEW

[論文レビュー] From Captions to Visual Concepts and Back

Hao Fang, Saurabh Gupta|arXiv (Cornell University)|Nov 18, 2014

Multimodal Machine Learning Applications参考文献 60被引用数 91

ひとこと要約

本稿では、複数のインスタンス学習を用いて画像領域内の語を検出するとともに、最大エントロピー言語モデルを用いて流暢な文を生成する、画像キャプション生成のための新規なシステムを提案する。このシステムは、画像キャプションから直接視覚的検出器、言語モデル、および深層マルチモーダル類似度モデルを訓練する。COCOベンチマークにおいて最先端の性能を達成し、BLEU-4スコア29.1%を記録し、人間の評価において34%の割合で人間のキャプションを上回った。

ABSTRACT

This paper presents a novel approach for automatically generating image descriptions: visual detectors, language models, and multimodal similarity models learnt directly from a dataset of image captions. We use multiple instance learning to train visual detectors for words that commonly occur in captions, including many different parts of speech such as nouns, verbs, and adjectives. The word detector outputs serve as conditional inputs to a maximum-entropy language model. The language model learns from a set of over 400,000 image descriptions to capture the statistics of word usage. We capture global semantics by re-ranking caption candidates using sentence-level features and a deep multimodal similarity model. Our system is state-of-the-art on the official Microsoft COCO benchmark, producing a BLEU-4 score of 29.1%. When human judges compare the system captions to ones written by other people on our held-out test set, the system captions have equal or better quality 34% of the time.

研究の動機と目的

物体、属性、関係のための別個のアノテート済みデータセットに依存せずに、画像キャプションから直接視覚的コンセプトと言語構造を学習するキャプション生成システムの開発。
画像領域における複数のインスタンス学習を用いて訓練された視覚的検出器を統合することで、名詞、動詞、形容詞を含む顕著なコンセプトを捉える。
最大エントロピー言語モデルと語検出スコア、および深層マルチモーダル類似度モデルを組み合わせることで、候補キャプションの再順序付けを実施し、文の流暢さと関連性を向上させる。
自動指標に加えて人間の判断による評価も実施し、人間が書いたキャプションとの相対的な品質を測定する。

提案手法

境界ボックスの監視なしに、画像部分領域からの豊富なCNN特徴量を語ラベルにマッピングすることで、複数のインスタンス学習（MIL）を用いて一般的なキャプション語の視覚的検出器を訓練した。
40万件の画像キャプション上で訓練された最大エントロピー言語モデルを用い、語の使用頻度と一般的な文法的パターンを学習した。
語検出スコアの最適化により、検出された語を正確に1回だけ含む高尤度な語列を生成することで、候補キャプションを生成した。
文単位の特徴量（特に、画像とテキストを共通の埋め込み空間にマップする新規な深層マルチモーダル類似度モデル：DMSMを含む）を用いた線形モデルにより、候補キャプションを再順序付けした。
保留されたテストセット上の自動指標と人間の判断を用いて、最小誤差率訓練（MERT）により再順序付け重みを学習した。
COCOデータセット上でVGGおよびAlexNetの特徴量を微調整し、視覚的表現の質を向上させた。

実験結果

リサーチクエスチョン

RQ1境界ボックスアノテーションがなくとも、名詞、動詞、形容詞を含む多様な語タイプの視覚的検出器を、画像キャプションから効果的に訓練できるか。
RQ2キャプション上で訓練された最大エントロピー言語モデルは、生成キャプションの流暢さと意味的整合性をどの程度向上できるか。
RQ3画像とテキスト表現を整列させる深層マルチモーダル類似度モデルを統合することで、高品質なキャプション候補の選択が向上するか。
RQ4エンドツーエンドにキャプションで訓練されたシステムは、自動指標および人間評価指標において、人間が書いたキャプションを上回ることができるか。

主な発見

本システムは、公式のCOCOテストセットにおいてBLEU-4スコア29.1%を達成し、人間の性能（21.7%）を上回った。
アマゾンMechanical Turkを用いた人間評価において、システムのキャプションは34%の割合で人間が書いたキャプションと同等またはそれ以上と評価された。
語検出スコアの追加によりBLEUおよびMETEORスコアが向上した一方、DMSMを用いた再順序付け特徴量は、4-gram一致率およびMETEORにおいて統計的に有意な改善（p < .001）をもたらした。
VGG+Score+DMSM+ftバージョンは、COCOテストセットでCIDErスコア0.925を達成し、人間のCIDErスコア0.910を上回った。
本システムは、CIDErおよびMETEORを含む14の公式COCO指標のうち12つで人間の性能を上回った。
PASCAL Sentenceデータセットでは、21.7%のBLEUおよび24.7%のMETEORを達成し、Midge（17.6% BLEU、19.2% METEOR）を著しく上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。