QUICK REVIEW

[论文解读] Exploiting Multiple Sequence Lengths in Fast End to End Training for Image Captioning

Jia Cheng Hu, Roberto Cavicchioli|arXiv (Cornell University)|Aug 13, 2022

Multimodal Machine Learning Applications参考文献 55被引用 20

一句话总结

本论文提出 Expansion 机制，用于处理任意序列长度的输入，使 ExpansionNet v2 在离线与在线评测中超越基线于 MS COCO 2014，同时实现端到端更快训练。

ABSTRACT

We introduce a method called the Expansion mechanism that processes the input unconstrained by the number of elements in the sequence. By doing so, the model can learn more effectively compared to traditional attention-based approaches. To support this claim, we design a novel architecture ExpansionNet v2 that achieved strong results on the MS COCO 2014 Image Captioning challenge and the State of the Art in its respective category, with a score of 143.7 CIDErD in the offline test split, 140.8 CIDErD in the online evaluation server and 72.9 AllCIDEr on the nocaps validation set. Additionally, we introduce an End to End training algorithm up to 2.8 times faster than established alternatives. Source code available at: https://github.com/jchenghu/ExpansionNet_v2

研究动机与目标

动机：固定输入序列长度可能成为无状态架构在图像描述中的瓶颈。
提出 Expansion 机制，在前向传播中将输入内容分布到可变长度的序列上，并在反向传播时恢复原始长度。
开发 ExpansionNet v2 架构，利用 Static 与 Dynamic Expansion，而不是过度依赖传统注意力。

提出的方法

在前向传播中引入 Expansion 机制，将输入扩展为任意数量的元素，且在反向传播中收回到原始长度。
定义 Static Expansion 与 Dynamic Expansion（自回归和双向变体），并给出 Forward 与 Backward Expansion 步骤。
使用 BroadSum 运算符在 Dynamic Expansion 中计算 expansion queries 和 biases。
在 Swin-Transformer 主干上整合 Expansion 层的编码器-解码器（ExpansionNet v2）。
采用两阶段目标进行训练：交叉熵损失后接 CIDEr-D 优化的强化学习（SCST）。
采用四步端到端训练计划，包含主干网络冻结及后续微调。

实验结果

研究问题

RQ1在处理过程中允许可变或扩展的序列长度是否相较于固定长度的注意力模型能够提升图像描述性能？
RQ2ExpansionNet v2 在离线与在线评测中是否能在不依赖大量预训练的情况下实现具有竞争力或最先进的结果？
RQ3扩展机制在训练速度和 FLOPs 方面的计算权衡是什么？
RQ4Static 与 Dynamic Expansion 各自及共同对性能的贡献如何？

主要发现

ExpansionNet v2 在 MS COCO 2014 上离线 143.7 CIDEr-D，在线 140.8 CIDEr-D。
ExpansionNet v2 在 nocaps 验证集达到 72.9 AllCIDEr。
Static 与 Dynamic Expansion 在各指标上均优于基线，Dynamic Expansion 尤其带来显著提升。
在线与离线结果显示 ExpansionNet v2 在 Karpathy 划分上超越若干单模型基线（如 CIDEr-D 提升）。
该模型端到端训练比许多替代方案更快，训练时间显著短于若干非生成模型，且比许多生成模型快一个数量级。
ExpansionNet v2 仍与最先进的 V+L 预训练模型竞争，同时使用更少的数据和更小的模型规模。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。