Skip to main content
QUICK REVIEW

[论文解读] CLiMB: A Continual Learning Benchmark for Vision-and-Language Tasks

Tejas Srinivasan, Ting-Yun Chang|arXiv (Cornell University)|Jun 18, 2022
Multimodal Machine Learning Applications被引用 23
一句话总结

CLiMB 引入了用于视觉-语言任务的持续学习基准,显示现有的持续学习方法可以缓解遗忘,但无法实现跨任务迁移,而上游持续学习也不会改善低样本下游迁移。

ABSTRACT

Current state-of-the-art vision-and-language models are evaluated on tasks either individually or in a multi-task setting, overlooking the challenges of continually learning (CL) tasks as they arrive. Existing CL benchmarks have facilitated research on task adaptation and mitigating "catastrophic forgetting", but are limited to vision-only and language-only tasks. We present CLiMB, a benchmark to study the challenge of learning multimodal tasks in a CL setting, and to systematically evaluate how upstream continual learning can rapidly generalize to new multimodal and unimodal tasks. CLiMB includes implementations of several CL algorithms and a modified Vision-Language Transformer (ViLT) model that can be deployed on both multimodal and unimodal tasks. We find that common CL methods can help mitigate forgetting during multimodal task learning, but do not enable cross-task knowledge transfer. We envision that CLiMB will facilitate research on a new class of CL algorithms for this challenging multimodal setting.

研究动机与目标

  • 在单一通用模型下研究视觉-语言任务序列的持续学习。
  • 评估上游持续学习在低样本设置下向下游多模态和单模态任务的迁移。
  • 评估现有持续学习算法是否缓解遗忘并在多模态情境中实现跨任务知识迁移。
  • 提供一个可扩展的基准,促进多模态持续学习方法的发展。

提出的方法

  • 使用可在多模态和单模态任务上部署的视觉-语言转换器(ViLT)骨干网络。
  • 在一系列视觉-语言任务上进行训练(上游阶段),并使用若干持续学习算法评估遗忘和知识迁移。
  • 在每个上游任务之后,评估对下游的低样本迁移至多模态和单模态任务。
  • 实现并比较持续学习算法:Sequential Fine-Tuning、Frozen Encoder、Frozen Bottom-K、Experience Replay (ER)、Elastic Weight Consolidation (EWC) 和 Adapters。
  • 将指标围绕上游知识迁移、遗忘,以及下游低样本迁移来构建(定义见表2)。
  • 将任务处理为分类问题,跨四个视觉-语言任务、五个语言任务和四个视觉任务;在实验中保持固定的上游任务顺序。

实验结果

研究问题

  • RQ1常见的持续学习方法是否能缓解视觉-语言任务序列中的遗忘?
  • RQ2这些方法是否能在视觉-语言任务之间或向单模态任务实现跨任务知识迁移?
  • RQ3上游持续学习是否改善向多模态和单模态任务的下游低样本迁移?
  • RQ4上游任务的顺序(例如 VQAv2、NLVR2、SNLI-VE、VCR)如何影响遗忘和知识迁移?

主要发现

  • 现有的持续学习方法可以缓解遗忘,但通常不为新视觉-语言任务带来积极的知识迁移;许多方法的表现与对第一任务直接微调相似或更差。
  • 大多数持续学习方法在上游任务之间的知识迁移几乎为零,Adapters 的表现与完全微调相当,但没有跨任务迁移。
  • 下游对多模态和单模态任务的低样本迁移未被上游CL改善;在多模态设置下,低样本迁移通常为负,Frozen Bottom-9 的降解最小。
  • 任务顺序很重要:在 VCR 上的训练会降低后续任务的知识迁移并增加遗忘,表明视觉输入中的领域偏移效应。
  • 基于 ViLT 的语言任务在语言特定的下游任务中从更强的语言先验(如 VAuLT)中获益,而多模态持续学习往往会损害语言迁移。
  • Adapters 能有效缓解遗忘,同时每个任务仅增加约 3-4% 的参数量,但当前的 adapters 在多模态设置下并不在任务之间共享知识。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。