QUICK REVIEW

[논문 리뷰] 12-in-1: Multi-Task Vision and Language Representation Learning

Jiasen Lu, Vedanuj Goswami|arXiv (Cornell University)|2019. 12. 05.

Multimodal Machine Learning Applications참고 문헌 62인용 수 36

한 줄 요약

본 논문은 ViLBERT 기반의 단일 모델을 4개 작업군에 걸친 12개의 비전-언어 데이터셋에서 공동으로 학습시키고, 파라미터를 줄이면서도 경쟁력 있거나 우수한 성과를 달성하고, 다운스트림 단일 작업 미세조정을 위한 효과적인 다중작업 사전학습을 가능하게 한다.

ABSTRACT

Much of vision-and-language research focuses on a small but diverse set of independent tasks and supporting datasets often studied in isolation; however, the visually-grounded language understanding skills required for success at these tasks overlap significantly. In this work, we investigate these relationships between vision-and-language tasks by developing a large-scale, multi-task training regime. Our approach culminates in a single model on 12 datasets from four broad categories of task including visual question answering, caption-based image retrieval, grounding referring expressions, and multi-modal verification. Compared to independently trained single-task models, this represents a reduction from approximately 3 billion parameters to 270 million while simultaneously improving performance by 2.05 points on average across tasks. We use our multi-task framework to perform in-depth analysis of the effect of joint training diverse tasks. Further, we show that finetuning task-specific models from our single multi-task model can lead to further improvements, achieving performance at or above the state-of-the-art.

연구 동기 및 목표

다양한 비전-언어 작업에서 공유된 바닥 지식과 추론 능력을 활용하기 위한 통합 학습의 필요성을 제시한다.
데이터셋 규모와 난이도 차이를 다룰 수 있는 확장 가능한 다중작업 학습 체계를 개발한다.
독립적인 단일 작업 모델에 비해 파라미터를 대폭 줄이면서도 공동 학습이 경쟁력 있거나 더 나은 성능을 나타낸다는 것을 입증한다.
다중작업 사전학습이 다운스트림 단일 작업 미세조정에 이점을 제공하고 여러 작업에서 최첨단 결과를 달성할 수 있음을 보여준다.

제안 방법

ViLBERT를 네 가지 작업군의 12개 데이터셋에 대해 공유 트렁크로 사용하고 각 작업에 특화된 헤드를 두는 방식을 채택한다.
멀티태스크 학습 중 현재 작업을 조건화하기 위해 데이터셋당 작업 토큰을 도입한다.
크기와 난이도가 다른 작업 간의 학습을 관리하기 위해 dynamic stop-and-go (DSG)와 라운드로빈 배치 샘플링 방식을 이용한다.
개선된 마스킹 전략으로 Conceptual Caption에서 사전학습을 수행하여 음수 샘플의 누출과 잡음을 줄인다.
개별 작업에서 다중작업 모델을 미세조정하고 완전히 작업 특화된 베이스라인과 비교한다.
작업 토큰의 세분화와 학습 일정에 대한 차등 분석으로 설계 선택을 검증한다.

실험 결과

연구 질문

RQ1다중 비전-언어 작업에서 학습된 하나의 모델이 독립적으로 학습된 작업 특화 모델보다 더 뛰어나거나 비슷한 성능을 보일 수 있는가?
RQ2다중작업 동시 학습이 다운스트림 단일 작업 모델의 사전학습 단계로서 이점을 제공하는가?
RQ3데이터 수준 및 작업 수준의 요인이 V&L 작업 간의 긍정적 또는 부정적 전이(transfer)에 어떤 영향을 미치는가?
RQ4다중작업 학습을 어떻게 일정화해야 데이터셋 규모 차이를 다루고 과적합이나 잊혀짐을 방지할 수 있는가?
RQ5작업 토큰 설계가 교차 작업 일반화와 grounding 일관성에 영향을 미치는가?

주요 결과

12개의 데이터셋에서 학습된 단일 모델이 12개 작업 중 11개에서 작업 특화 최첨단과 동등하거나 더 나은 성능을 보여주고 평균 점수를 2.05점 올리며 파라미터를 ~3B에서 270M으로 줄인다.
다중작업 사전학습에 이은 단일 작업 미세조정은 상당한 이점을 가져와 여러 작업에서 최첨단 성능을 달성한다.
다중작업 학습은 효과적인 사전학습으로서 교차 작업 grounding 일관성을 향상시키며, 미세조정 시 더 높은 grounding-인식 지표로 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.