QUICK REVIEW

[论文解读] From Captions to Visual Concepts and Back

Hao Fang, Saurabh Gupta|arXiv (Cornell University)|Nov 18, 2014

Multimodal Machine Learning Applications参考文献 60被引用 91

一句话总结

本文提出了一种新颖的图像字幕生成系统，通过多实例学习从图像字幕中直接端到端训练视觉检测器、语言模型和深度多模态相似度模型，以检测图像区域中的词汇，并利用最大熵语言模型生成流畅的句子。该系统在 COCO 基准测试中达到最先进性能，BLEU-4 得分为 29.1%，在 34% 的人工评估中优于人类字幕。

ABSTRACT

This paper presents a novel approach for automatically generating image descriptions: visual detectors, language models, and multimodal similarity models learnt directly from a dataset of image captions. We use multiple instance learning to train visual detectors for words that commonly occur in captions, including many different parts of speech such as nouns, verbs, and adjectives. The word detector outputs serve as conditional inputs to a maximum-entropy language model. The language model learns from a set of over 400,000 image descriptions to capture the statistics of word usage. We capture global semantics by re-ranking caption candidates using sentence-level features and a deep multimodal similarity model. Our system is state-of-the-art on the official Microsoft COCO benchmark, producing a BLEU-4 score of 29.1%. When human judges compare the system captions to ones written by other people on our held-out test set, the system captions have equal or better quality 34% of the time.

研究动机与目标

开发一种字幕生成系统，直接从图像字幕中学习视觉概念和语言结构，避免依赖于对象、属性和关系的独立标注数据集。
通过在图像区域上使用多实例学习训练的视觉检测器，提升字幕质量，捕捉包括名词、动词和形容词在内的显著概念。
通过结合最大熵语言模型与词检测得分，以及使用深度多模态相似度模型进行候选字幕重排序，提升生成字幕的流畅性与相关性。
不仅通过自动指标评估性能，还通过人工判断进行评估，衡量生成字幕相对于人工撰写字幕的质量。

提出的方法

使用多实例学习（MIL）从图像字幕中训练常见字幕词汇的视觉检测器，将图像子区域的丰富 CNN 特征映射到词标签，无需边界框监督。
采用在 40 万张图像字幕上训练的最大熵语言模型，学习词使用统计规律和常识性语言模式。
通过优化词检测得分生成候选字幕，生成高概率序列，确保检测到的词汇恰好出现一次。
使用包含新提出的深度多模态相似度模型（DMSM）的线性模型对候选字幕进行重排序，该模型将图像和文本映射到共享嵌入空间。
通过最小误差率训练（MERT）在保留测试集上学习重排序权重，结合自动指标与人工判断结果。
在 COCO 数据集上对 VGG 和 AlexNet 特征进行微调，以提升视觉表征质量。

实验结果

研究问题

RQ1仅从图像字幕中，能否有效训练涵盖名词、动词和形容词等多样词类的视觉检测器，而无需边界框标注？
RQ2在字幕上训练的最大熵语言模型在多大程度上能提升生成字幕的流畅性与语义连贯性？
RQ3引入一种将图像与文本表征对齐的深度多模态相似度模型，是否能提升高质量候选字幕的选择？
RQ4一种完全从字幕端到端训练的系统，是否能在自动指标与人工评估指标上均超越人工撰写字幕？

主要发现

该系统在官方 COCO 测试集上达到 29.1% 的 BLEU-4 得分，超越人类表现（人类表现报告为 21.7%）。
通过 Amazon Mechanical Turk 进行的人工评估显示，该系统生成的字幕在 34% 的情况下被判断为与人类字幕相当或更优。
引入词检测得分后，BLEU 和 METEOR 得分均有所提升；基于 DMSM 的重排序特征在 4-gram 重叠和 METEOR 上均带来统计上显著的改进（p < .001）。
VGG+Score+DMSM+ft 变体在 COCO 测试集上达到 0.925 的 CIDEr 得分，超过人类 CIDEr 得分 0.910。
该系统是唯一在 COCO 官方 14 项指标中的 12 项上超越人类表现的系统，包括 CIDEr 和 METEOR。
在 PASCAL Sentence 数据集上，该系统达到 21.7% 的 BLEU 和 24.7% 的 METEOR，显著优于先前工作如 Midge（17.6% BLEU，19.2% METEOR）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。