QUICK REVIEW

[论文解读] RATT: Recurrent Attention to Transient Tasks for Continual Image Captioning

Riccardo Del Chiaro, Bartłomiej Twardowski|arXiv (Cornell University)|Jul 13, 2020

Multimodal Machine Learning Applications参考文献 27被引用 25

一句话总结

本文提出RATT（Recurrent Attention to Transient Tasks），一种针对基于LSTM的图像字幕生成模型的新型持续学习框架，该框架显式建模了任务特定词汇的瞬态特性。通过应用任务特定的注意力掩码，并将正则化与蒸馏方法适配至循环架构，RATT在MS-COCO和Flickr30k数据集上实现了五个连续字幕任务中的零灾难性遗忘，且在自动评估与人工评估中均优于EWC和LwF基线模型。

ABSTRACT

Research on continual learning has led to a variety of approaches to mitigating catastrophic forgetting in feed-forward classification networks. Until now surprisingly little attention has been focused on continual learning of recurrent models applied to problems like image captioning. In this paper we take a systematic look at continual learning of LSTM-based models for image captioning. We propose an attention-based approach that explicitly accommodates the transient nature of vocabularies in continual image captioning tasks -- i.e. that task vocabularies are not disjoint. We call our method Recurrent Attention to Transient Tasks (RATT), and also show how to adapt continual learning approaches based on weight egularization and knowledge distillation to recurrent continual learning problems. We apply our approaches to incremental image captioning problem on two new continual learning benchmarks we define using the MS-COCO and Flickr30 datasets. Our results demonstrate that RATT is able to sequentially learn five captioning tasks while incurring no forgetting of previously learned ones.

研究动机与目标

解决在顺序任务学习过程中，循环图像字幕模型出现的灾难性遗忘问题。
建模持续图像字幕中词汇的瞬态特性，即词汇在不同任务中重复出现的现象。
将现有持续学习技术（如EWC和LwF）适配至循环LSTM架构，以应对顺序生成任务。
通过任务拆分方法，利用MS-COCO和Flickr30k数据集建立持续图像字幕的新基准。
通过自动指标与人工评估，在多个任务上评估RATT的有效性。

提出的方法

提出一种任务特定的注意力掩码机制，在训练期间选择性地关注相关词汇组件，以反映任务特定词汇的瞬态特性。
通过在隐藏状态梯度上计算Fisher信息，将弹性权重巩固（EWC）适配至循环网络，以正则化关键参数。
针对RNN修改知识蒸馏（LwF），在不同任务间对隐藏状态和输出概率应用蒸馏损失。
通过将MS-COCO和Flickr30k拆分为五个连续且重叠的词汇任务（如体育、婚礼、新闻等），设计了两个新的持续学习基准。
采用标准的编码器-解码器架构，使用ResNet-101作为图像编码器，LSTM解码器用于字幕生成。
在推理和训练期间，通过可学习的任务嵌入来条件化注意力机制，以反映当前任务身份。

实验结果

研究问题

RQ1当任务词汇具有瞬态且重叠特性时，循环注意力机制是否能有效缓解图像字幕中的灾难性遗忘？
RQ2当适配至基于LSTM的图像字幕模型时，标准持续学习方法（如EWC和LwF）表现如何？
RQ3与基线模型相比，RATT在学习新任务时对先前学习任务的性能保持程度如何？
RQ4图像字幕任务的瞬态词汇结构是否意味着需要一种与互斥类别设置根本不同的持续学习方法？
RQ5人工评估是否能证实RATT生成的字幕在语义准确性和相关性方面优于基线模型？

主要发现

在MS-COCO和Flickr30k上，RATT在五个连续字幕任务中实现了零灾难性遗忘，早期任务性能无任何下降。
在MS-COCO上，RATT在人工评估中优于EWC和LwF，用户偏好度为75.0%至85.0%选择RATT而非EWC，77.5%至82.5%选择RATT而非LwF。
在Flickr30k上，RATT在人工偏好度上达到61.8%至76.4%优于EWC，45.5%至69.1%优于LwF，证实其持续优越性。
自动评估显示，RATT在所有任务中均保持较高的BLEU、ROUGE和CIDEr得分，遗忘程度极低（如MS-COCO上CIDEr仅下降-1.5，Flickr30k上为0.0）。
消融实验表明，任务特定的注意力掩码至关重要，若移除则导致显著遗忘。
尽管实现零遗忘，RATT的可塑性与反向迁移能力有限，旧任务性能未因新知识的引入而提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。