[论文解读] Regularizing RNNs for Caption Generation by Reconstructing The Past with The Present
该论文提出了一种名为自重构网络(ARNet)的新颖RNN正则化方法,通过从当前隐藏状态重构过去隐藏状态来提升序列建模性能。通过增强时序依赖性并减少训练与推理之间的差异,ARNet在图像字幕、代码字幕以及长序列任务(如打乱的MNIST)中均取得显著性能提升,实现了SOTA结果,BLEU-4指标大幅提升,并增强了长期依赖性建模能力。
Recently, caption generation with an encoder-decoder framework has been extensively studied and applied in different domains, such as image captioning, code captioning, and so on. In this paper, we propose a novel architecture, namely Auto-Reconstructor Network (ARNet), which, coupling with the conventional encoder-decoder framework, works in an end-to-end fashion to generate captions. ARNet aims at reconstructing the previous hidden state with the present one, besides behaving as the input-dependent transition operator. Therefore, ARNet encourages the current hidden state to embed more information from the previous one, which can help regularize the transition dynamics of recurrent neural networks (RNNs). Extensive experimental results show that our proposed ARNet boosts the performance over the existing encoder-decoder models on both image captioning and source code captioning tasks. Additionally, ARNet remarkably reduces the discrepancy between training and inference processes for caption generation. Furthermore, the performance on permuted sequential MNIST demonstrates that ARNet can effectively regularize RNN, especially on modeling long-term dependencies. Our code is available at: https://github.com/chenxinpeng/ARNet
研究动机与目标
- 为解决由于训练-推理差异导致的RNN-based字幕生成中的暴露偏差和泛化能力差的问题。
- 改进RNN在长程依赖性任务中的长期依赖性建模能力,特别是在具有长距离依赖性的序列任务中。
- 通过显式连接相邻隐藏状态的重构机制,对RNN的转移动态进行正则化。
- 在不修改核心编码器-解码器架构的前提下,提升包括图像和源代码字幕在内的多种字幕生成任务的性能。
- 提供一个简单、端到端可训练的模块,可轻松集成到现有的RNN-based字幕生成框架中。
提出的方法
- ARNet是一个独立的LSTM网络,利用主解码器RNN的当前隐藏状态$h_t$来重构前一隐藏状态$h_{t-1}$。
- 在训练过程中最小化重构损失,促使$h_t$保留并编码$h_{t-1}$的信息,从而对RNN的转移动态进行正则化。
- ARNet与主编码器-解码器框架端到端联合训练,重构损失被添加到标准交叉熵损失中用于字幕生成。
- 该架构兼容注意力机制,可应用于图像和代码字幕生成任务。
- 在标准基准数据集(包括MS-COCO、HabeasCorpus和打乱的序列MNIST)上进行评估,使用BLEU-4和测试准确率等标准指标。
- 在打乱的MNIST任务中采用两阶段训练策略:先预训练编码器LSTM,然后联合微调编码器和ARNet。
实验结果
研究问题
- RQ1从当前隐藏状态重构过去隐藏状态是否能提升RNN-based字幕生成的性能?
- RQ2ARNet是否能有效减少RNN在序列生成中训练与推理之间的差异?
- RQ3ARNet能否增强对序列数据中长期依赖性的建模能力,特别是在打乱的MNIST等挑战性任务中?
- RQ4与现有正则化技术(如zoneout和循环dropout)相比,ARNet在泛化能力和鲁棒性方面表现如何?
- RQ5ARNet是否能在不同模态(如图像和源代码)的字幕生成任务中均提升性能?
主要发现
- 在HabeasCorpus代码字幕数据集上,ARNet相较于基线模型在BLEU-4上实现了36.36%的相对提升,显著优于课程采样和zoneout方法。
- 非注意力机制的ARNet变体在BLEU-4上实现了23.40%的相对提升,表明其在无注意力机制下依然有效。
- ARNet将平均质心距离($d_{\text{mc}}$)从0.643降低至0.641,点对点距离($d_{\text{pw}}$)从0.722降低至0.699,表明训练-推理差异得到减少。
- 在打乱的序列MNIST任务中,ARNet达到93.3%的测试准确率,超过循环dropout(92.5%)和zoneout(93.1%),证明其在长期依赖性建模方面更优。
- 注意力机制的ARNet变体将$d_{\text{mc}}$降至0.322,$d_{\text{pw}}$降至0.465,显示出在复杂模型中对暴露偏差的强效缓解。
- ARNet在多个基准测试中持续提升性能,证实其在视觉和代码字幕任务中的泛化能力与有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。