QUICK REVIEW

[论文解读] Microsoft COCO Captions: Data Collection and Evaluation Server

Xinlei Chen, Hao Fang|arXiv (Cornell University)|Apr 1, 2015

Multimodal Machine Learning Applications参考文献 47被引用 1,628

一句话总结

本文介绍了 Microsoft COCO Captions 数据集，包含超过 150 万个图像的人工标注描述，以及一个使用 BLEU、METEOR、ROUGE 和 CIDEr 指标对自动描述生成模型进行评分的标准化评估服务器。主要贡献在于提供了一个一致且可扩展的评估框架，包含人工标注的参考文本和在线服务器，以实现对图像描述生成算法在训练集、验证集和测试集上的公平、可复现的基准测试。

ABSTRACT

In this paper we describe the Microsoft COCO Caption dataset and evaluation server. When completed, the dataset will contain over one and a half million captions describing over 330,000 images. For the training and validation images, five independent human generated captions will be provided. To ensure consistency in evaluation of automatic caption generation algorithms, an evaluation server is used. The evaluation server receives candidate captions and scores them using several popular metrics, including BLEU, METEOR, ROUGE and CIDEr. Instructions for using the evaluation server are provided.

研究动机与目标

建立一个大规模、人工标注的图像描述数据集，用于图像描述生成模型的训练与评估。
通过提供集中化、标准化的评估服务器和一致的指标实现方式，解决自动评估中的不一致性问题。
通过为每张图像使用多个参考描述（特别是在包含 40 个参考描述的 c40 子集中），提高自动指标与人类判断的相关性。
通过将测试集评估与公开的参考描述分离，实现对描述生成模型的公平比较，降低过拟合风险。
支持未来的人工评估研究，以验证并优化自动指标与人类判断的一致性。

提出的方法

通过 Amazon Mechanical Turk 收集数据，使用标准化指令确保描述具有描述性、上下文相关性，且不少于 8 个词，避免使用代词或过去/将来时态。
创建两个数据集：MS COCO c5（每张图像 5 个参考描述）和 MS COCO c40（5,000 张测试图像每张 40 个参考描述），以提升自动指标与人类判断的相关性。
在 CodaLab 上托管的集中式评估服务器上实现自动评分，计算提交的候选描述的 BLEU-1 至 BLEU-4、METEOR、ROUGE-L 和 CIDEr-D 分数。
使用 Stanford PTBTokenizer 对候选描述和参考描述进行一致的分词与预处理。
提出一种新指标——人类召回精度（Precision at Human Recall, PHR），用于评估系统性能相对于人类一致性的表现。
采用概率框架建模人类描述行为，估算词频使用概率（p）和固定召回率，以分析在不同参考描述数量下的精确率-召回率动态变化。

实验结果

研究问题

RQ1如何通过人工标注者大规模、多样化且一致地收集大规模图像描述数据集？
RQ2自动评估指标与人类判断的相关性如何？如何提升这种相关性？
RQ3增加每张图像的参考描述数量会对自动评估指标的可靠性和公平性产生何种影响？
RQ4标准化、集中化的评估服务器如何减少图像描述模型基准测试中的差异性和过拟合？
RQ5像人类召回精度（PHR）这样的新指标是否能更准确地反映系统性能相对于人类描述行为的表现？

主要发现

最终数据集包含 1,026,459 条描述，覆盖 330,000 张图像，其中 c5 数据集中每张图像有 5 个参考描述，c40 数据集中每张图像有 40 个参考描述，均通过 Mechanical Turk 严格标注指南收集。
评估服务器对提交的候选描述计算多种标准指标——BLEU、METEOR、ROUGE 和 CIDEr，实现一致且可复现的基准测试。
使用每张图像 40 个参考描述（c40）显著提高了自动指标与人类判断的相关性，相比仅使用 5 个参考描述的情况。
随着参考描述数量减少，人类一致性的精确率下降，但召回率保持不变，验证了使用固定召回率模型估计人类行为的合理性。
提出的 PHR 指标与人类在固定召回率下的精确率高度一致，相较于仅使用标准指标，能提供更可靠的系统性能基准。
模型预测显示，随着标注者数量增加，人类精确率趋近于 1.0，证实了在足够多标注的情况下，可见物体的词频使用将变得高度一致。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。