QUICK REVIEW

[论文解读] CIDEr: Consensus-based Image Description Evaluation

Ramakrishna Vedantam, C. Lawrence Zitnick|arXiv (Cornell University)|Nov 20, 2014

Multimodal Machine Learning Applications参考文献 39被引用 61

一句话总结

本文提出了 CIDEr，一种基于共识的图像描述生成评估指标，通过衡量生成句子与图像的多数人类标注描述之间的对齐程度来评估质量。通过采用基于三元组的人类标注协议和新颖的 n-gram 共现度量方法，CIDEr 与人类对共识的判断具有高度相关性（0.98），优于现有的 BLEU 和 ROUGE 等指标，并已集成至 MS COCO 评估服务器中作为 CIDEr-D。

ABSTRACT

Automatically describing an image with a sentence is a long-standing challenge in computer vision and natural language processing. Due to recent progress in object detection, attribute classification, action recognition, etc., there is renewed interest in this area. However, evaluating the quality of descriptions has proven to be challenging. We propose a novel paradigm for evaluating image descriptions that uses human consensus. This paradigm consists of three main parts: a new triplet-based method of collecting human annotations to measure consensus, a new automated metric (CIDEr) that captures consensus, and two new datasets: PASCAL-50S and ABSTRACT-50S that contain 50 sentences describing each image. Our simple metric captures human judgment of consensus better than existing metrics across sentences generated by various sources. We also evaluate five state-of-the-art image description approaches using this new protocol and provide a benchmark for future comparisons. A version of CIDEr named CIDEr-D is available as a part of MS COCO evaluation server to enable systematic evaluation and benchmarking.

研究动机与目标

为解决图像描述质量评估缺乏可靠、基于共识的标准这一挑战。
克服现有指标（如 BLEU 和 ROUGE）与人类判断相关性较弱的局限性。
提出一种新型评估协议，通过捕捉与多数人类生成描述的相似性，直接衡量‘人类相似度’。
通过两个新数据集 PASCAL-50S 和 ABSTRACT-50S，为未来图像字幕模型提供基准，每个图像包含 50 个参考句子。
通过将 CIDEr-D 集成至 MS COCO 评估服务器，实现系统化、可复现的评估。

提出的方法

采用基于三元组的人类标注协议来测量共识，标注者需从两个候选句子中选择与参考句子更相似的一个，该过程建模为 2AFC（二选一强制选择）任务。
CIDEr 指标通过计算候选句子与一组参考句子之间 n-gram 共现度来衡量句子相似性，采用 n-gram F 分数的归一化加权和。
该指标引入高斯惩罚项以减少对过长或过短句子的偏差，提升鲁棒性。
CIDEr-D 是其优化版本，去除了词干还原，应用了长度惩罚，并对 n-gram 计数进行截断，以防止通过重复高置信度词汇来“操纵”指标。
方法对 n-gram（n=1 至 N）使用统一权重，并对得分进行归一化，以确保与其他指标在数值上的一致性。
评估框架使用两个新数据集——PASCAL-50S 和 ABSTRACT-50S，每个图像包含 50 个由人类书写的描述，从而实现对共识的精确测量。

实验结果

研究问题

RQ1自动化指标在图像描述评估中捕捉人类共识的能力如何？
RQ2将参考句子数量从 5 增加到 50 是否能提高自动评估指标的可靠性？
RQ3基于共识的指标是否能在与人类判断的相关性上超越现有指标（如 BLEU、ROUGE 和 METEOR）？
RQ4CIDEr 指标在多大程度上能抵抗模型输出通过利用指标弱点进行‘操纵’的行为？
RQ5CIDEr-D 在预测共识方面的表现与人类表现相比如何？

主要发现

CIDEr 在其得分与人类对共识判断之间实现了 0.98 的皮尔逊相关系数，显著优于现有指标。
大多数指标（包括 CIDEr）的性能随参考句子数量增加而提升，50 个句子可提供对共识的稳定估计。
CIDEr-D 作为优化版本，与原始 CIDEr 的斯皮尔曼等级相关系数达到 0.94，同时对操纵策略更具鲁棒性。
在 PASCAL-50S 数据集上，CIDEr-D 在预测共识方面达到 82% 的准确率，而人类标注者为 90%。
在 ABSTRACT-50S 数据集上，CIDEr-D 达到 82% 的准确率，人类表现则为 83%，表明自动化指标正接近人类水平的一致性。
CIDEr-D 已上线 MS COCO 评估服务器，支持图像字幕模型的标准化基准测试。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。