QUICK REVIEW

[论文解读] Learning to Collocate Neural Modules for Image Captioning

Xu Yang, Hanwang Zhang|arXiv (Cornell University)|Apr 18, 2019

Multimodal Machine Learning Applications参考文献 48被引用 18

一句话总结

本文提出了一种名为学习共现神经模块（CNM）的新颖图像字幕框架，通过动态组合功能型与内容特定的神经模块（名词、形容词、动词），模仿人类的句子模式生成方式。通过使用软模块融合、多步推理以及语言学损失以强制实现词性搭配，CNM 在 Karpathy 分割集上达到 127.9 的 CIDEr-D 分数，在官方 MS-COCO 测试服务器上达到 126.0 的 c40 分数，同时在低数据设置下仍保持鲁棒性。

ABSTRACT

We do not speak word by word from scratch; our brain quickly structures a pattern like extsc{sth do sth at someplace} and then fill in the detailed descriptions. To render existing encoder-decoder image captioners such human-like reasoning, we propose a novel framework: learning to Collocate Neural Modules (CNM), to generate the `inner pattern' connecting visual encoder and language decoder. Unlike the widely-used neural module networks in visual Q\&A, where the language (ie, question) is fully observable, CNM for captioning is more challenging as the language is being generated and thus is partially observable. To this end, we make the following technical contributions for CNM training: 1) compact module design --- one for function words and three for visual content words (eg, noun, adjective, and verb), 2) soft module fusion and multi-step module execution, robustifying the visual reasoning in partial observation, 3) a linguistic loss for module controller being faithful to part-of-speech collocations (eg, adjective is before noun). Extensive experiments on the challenging MS-COCO image captioning benchmark validate the effectiveness of our CNM image captioner. In particular, CNM achieves a new state-of-the-art 127.9 CIDEr-D on Karpathy split and a single-model 126.0 c40 on the official server. CNM is also robust to few training samples, eg, by training only one sentence per image, CNM can halve the performance loss compared to a strong baseline.

研究动机与目标

为解决现有图像字幕模型缺乏归纳偏置的问题，该问题导致数据集偏差和泛化能力差。
模仿人类的句子模式形成方式——先构建模板再填充视觉概念——从而将字幕生成与虚假共现模式解耦。
开发一种模块化、可微分的框架，即使在生成句子部分可观测的情况下，也能以结构化、逐步推理的方式处理视觉与语言元素。
通过在模块上进行结构化推理，提升在低数据设置（如每张图像仅一个字幕）下的鲁棒性。

提出的方法

CNM 使用四种不同的神经模块：一种用于功能词（如 'a'），三种用于视觉内容词——名词、形容词和动词，每种模块负责生成特定的词性类型。
在每个解码步骤中，模型利用软注意力机制，根据当前隐藏状态融合所有四个模块的输出，从而在部分可观测条件下实现动态且鲁棒的模块选择。
通过顺序堆叠模块实现多步推理，使模型能够通过逐步优化句子结构生成复杂短语。
引入语言学损失，以强制模块注意力与词性搭配一致——例如形容词必须位于名词之前——从而提升语法正确性。
框架通过交叉熵损失端到端训练，并辅以消融实验以验证各组件的贡献。
通过将 CNM 与 SGAE（句子图注意力编码器）结合，进一步提升性能，该方法通过保留语言偏差并增强语义表征来提升效果。

实验结果

研究问题

RQ1基于模块化、模式化的图像字幕方法是否能减少对数据集特定偏差（如高频共现词对）的依赖？
RQ2在生成过程中语言输出仅部分可观测时，软模块融合与多步推理在多大程度上提升了鲁棒性？
RQ3强制实施语言约束（如词性顺序）在多大程度上能提升生成字幕的语法正确性与流畅度？
RQ4在低数据训练设置（如每张图像仅一个字幕）下，所提出的模块共现框架是否能有效泛化？
RQ5常识推理模块的集成对性能有何影响？是否能解决生成上下文恰当形容词的局限性？

主要发现

CNM 在 MS-COCO 的 Karpathy 分割集上取得了 127.9 的新 SOTA CIDEr-D 分数，优于先前所有方法，包括参数量更大的强基线模型。
在官方 MS-COCO 测试服务器上，CNM 单模型 CIDEr-D 得分为 126.0，展现出强大的泛化能力与竞争力，无需集成方法。
在仅使用每张图像一个字幕进行微调时，CNM 的性能下降幅度仅为强基线的一半，表明其具有更优的数据效率。
语言学损失显著提升了语法正确性，表现为对 'man standing' 等高频共现对的过拟合现象减少，生成更准确的描述。
CNM+SGAE 在官方服务器上取得 126.0 的 CIDEr-D 分数，在 c40 分割集上达到 123.8，表明整合语言偏差建模可进一步提升性能。
消融实验证实，软模块融合与多步推理对鲁棒性至关重要，尤其是在生成过程中存在部分可观测性时。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。