QUICK REVIEW

[논문 리뷰] CLiMB: A Continual Learning Benchmark for Vision-and-Language Tasks

Tejas Srinivasan, Ting-Yun Chang|arXiv (Cornell University)|2022. 06. 18.

Multimodal Machine Learning Applications인용 수 23

한 줄 요약

CLiMB는 비전-언어 작업에 대한 지속적 학습 벤치마크를 도입하여 기존 CL 방법이 망각을 완화하지만 교차 작업 전이는 가능하게 하지 못하고, 업스트림(CL)으로 인한 다운스트림 저샷 전이가 향상되지 않는다는 점을 보여줍니다.

ABSTRACT

Current state-of-the-art vision-and-language models are evaluated on tasks either individually or in a multi-task setting, overlooking the challenges of continually learning (CL) tasks as they arrive. Existing CL benchmarks have facilitated research on task adaptation and mitigating "catastrophic forgetting", but are limited to vision-only and language-only tasks. We present CLiMB, a benchmark to study the challenge of learning multimodal tasks in a CL setting, and to systematically evaluate how upstream continual learning can rapidly generalize to new multimodal and unimodal tasks. CLiMB includes implementations of several CL algorithms and a modified Vision-Language Transformer (ViLT) model that can be deployed on both multimodal and unimodal tasks. We find that common CL methods can help mitigate forgetting during multimodal task learning, but do not enable cross-task knowledge transfer. We envision that CLiMB will facilitate research on a new class of CL algorithms for this challenging multimodal setting.

연구 동기 및 목표

단일 일반 모델을 사용하여 비전-언어 작업 시퀀스에 대한 지속적 학습 연구를 수행한다.
저샷 설정에서 업스트림 지속적 학습이 다운스트림 다중모달 및 단일모달 작업으로의 전이로 어떻게 작용하는지 평가한다.
다중 모달 맥락에서 지속적 학습 알고리즘이 망각을 완화하고 교차 작업 지식 전이를 가능하게 하는지 평가한다.
다중 모달 지속적 학습 방법의 개발을 촉진하기 위한 확장 가능한 벤치마크를 제공한다.

제안 방법

다중모달 및 단일모달 작업에 배포 가능한 Vision-Language Transformer (ViLT) 백본을 사용한다.
업스트림 단계에서 비전-언어 작업 시퀀스를 학습하고 여러 CL 알고리즘으로 망각 및 지식 전이를 평가한다.
각 업스트림 작업 후 다중모달 및 단일모달 작업으로의 다운스트림 저샷 전이를 평가한다.
CL 알고리즘으로 Sequential Fine-Tuning, Frozen Encoder, Frozen Bottom-K, Experience Replay (ER), Elastic Weight Consolidation (EWC), Adapters를 구현하고 비교한다.
상향식 지식 전이, 망각, 다운스트림 저샷 전이에 대한 지표를 프레이밍한다(정의는 표 2에 있음).
실험에서 작업은 네 가지 비전-언어 작업, 다섯 가지 언어 작업, 네 가지 비전 작업에 걸친 분류 문제로 취급하고, 업스트림 작업 순서는 고정한다.

실험 결과

연구 질문

RQ1비전-언어 작업 시퀀스에서 일반적인 지속적 학습 방법이 망각을 완화하는가?
RQ2이러한 방법들이 비전-언어 작업 간 혹은 단일 모달 작업으로의 교차 작업 지식 전이를 가능하게 하는가?
RQ3업스트림 지속적 학습이 다중모달 및 단일모달 작업으로의 다운스트림 저샷 전이를 향상시키는가?
RQ4업스트림 작업의 순서(예: VQAv2, NLVR2, SNLI-VE, VCR)가 망각 및 지식 전이에 어떤 영향을 미치는가?

주요 결과

기존 지속적 학습 방법은 망각을 완화할 수 있지만 일반적으로 새로운 비전-언어 작업으로의 긍정적인 지식 전이를 제공하지는 않으며, 많은 접근법이 첫 번째 작업에 대한 직접 미세조정과 유사하거나 그보다 나쁘게 작동한다.
대부분의 CL 방법에서 업스트림 작업 간의 지식 전이는 거의 제로에 가깝고, Adapters는 전체 미세조정과 비슷한 성능을 보이나 교차 작업 전이는 없다.
다운스트림의 저샷 전이가 다중모달 및 단일모달 작업 모두에서 업스트림 CL에 의해 향상되지 않으며, 다중모달 설정에서 저샷 전이는 일반적으로 음수이며 Frozen Bottom-9가 가장 적은 손상을 보인다.
작업 순서가 중요하다: VCR에서의 학습은 이후 작업에 대한 지식 전이를 감소시키고 망각을 증가시킬 수 있으며, 이는 시각 입력의 도메인 시프트 효과를 시사한다.
ViLT 기반의 언어 작업은 언어 전용 다운스트림 작업에서 더 강한 언어 priors(예: VAuLT)의 이점을 얻는 반면, 다중모달 CL은 언어 전이에는 보통 해를 준다.
Adapters는 망각을 효과적으로 완화하고 작업당 약 3-4%의 매개변수만 추가하지만, 현재의 어댑터들은 다중모달 맥락에서 작업 간 지식을 공유하지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.