[논문 리뷰] Are we pretraining it right? Digging deeper into visio-linguistic pretraining
이 논문은 도메인 전처리 데이터의 영역(시각/텍스트)이 비주얼-언어 전이(trans)는 어떻게 영향을 주는지 체계적으로 연구한다. 도메인 내 데이터나 합성 데이터가 표준의 큰 데이터셋보다 더 나은 성능을 내는 경우가 있으며, 단순한 사전 학습 선택으로도 아키텍처 변경 없이 거의 최상위 수준에 근접한 결과를 얻을 수 있다.
Numerous recent works have proposed pretraining generic visio-linguistic representations and then finetuning them for downstream vision and language tasks. While architecture and objective function design choices have received attention, the choice of pretraining datasets has received little attention. In this work, we question some of the default choices made in literature. For instance, we systematically study how varying similarity between the pretraining dataset domain (textual and visual) and the downstream domain affects performance. Surprisingly, we show that automatically generated data in a domain closer to the downstream task (e.g., VQA v2) is a better choice for pretraining than "natural" data but of a slightly different domain (e.g., Conceptual Captions). On the other hand, some seemingly reasonable choices of pretraining datasets were found to be entirely ineffective for some downstream tasks. This suggests that despite the numerous recent efforts, vision & language pretraining does not quite work "out of the box" yet. Overall, as a by-product of our study, we find that simple design choices in pretraining can help us achieve close to state-of-art results on downstream tasks without any architectural changes.
연구 동기 및 목표
- 사전학습 데이터와 다운스트림 작업 간의 도메인 유사성이 비주얼-언어 모델의 성능에 미치는 영향을 조사한다.
- 더 큰 사전학습 데이터셋이 항상 도움이 되는지, 데이터 품질과 도메인 정렬이 전이에 어떤 영향을 미치는지 평가한다.
- 사전학습이 자원이 적은 다운스트림 작업에 도움이 되는 시점과 그렇지 않거나 해로울 수 있는 시점을 탐구한다.
- 고정된 모델 베이스를 사용한 전달 가능성(전이성)을 평가하고 전체 파인튜닝과의 비교를 통해 확인한다.
- 라벨 데이터가 희소할 때 사전학습을 개선하는 확장 가능한 대안으로 합성된 도메인 내부 데이터 생성을 제안한다.
제안 방법
- 두 가지 주요 비주얼-언어 아키텍처(VisualBERT와 ViLBERT)를 MLM과 MMM 목표로 세 가지 사전학습 데이터셋(CC-COCO Captions, VQA 2.0, Conceptual Captions)에서 학습시켜 비교한다.
- 다양한 도메인 매칭을 가진 네 가지 다운스트림 태스크(VQA-D, VizWiz, SNLI-VE, MM-IMDB)에서 평가한다.
- 사전학습 데이터셋의 규모를 체계적으로 변화시키고(CC-Small, CC-full 포함) 다운스트림 성능에 미치는 영향을 측정한다.
- 사전학습 베이스를 고정해 학습된 표현의 전달 가능성을 정량화한다.
- 캡션 생성으로 도메인 내 이미지를 이용해 합성된 내부 도메인 데이터(CCG)를 소개하고, 자연스러운 내부/외부 도메인 데이터와의 효과를 비교한다.
- 사전학습된.self-attention 가중치 간의 L1 및 각도 거리로 표현 드리프트를 분석한다.
실험 결과
연구 질문
- RQ1사전학습 데이터와 다운스트림 작업 간의 시각적 및 텍스트 도메인 유사성이 비주얼-언어 전달(trans) 에 어떤 영향을 미치는가?
- RQ2가장 큰 사전학습 데이터셋을 단순히 사용하는 것이 항상 이로운가, 아니면 도메인과 품질이 더 중요인가?
- RQ3사전학습된 표현은 다운스트림 태스크가 자원 적은 경우에 더 잘 전달되는가, 그리고 어떤 요인이 이를 좌우하는가?
- RQ4합성 내부 도메인 데이터가 도메인 격차를 좁히고 아키텍처 변경 없이 사전학습의 효과를 개선할 수 있는가?
- RQ5다양한 사전학습 조건에서 어떤 아키텍처(VisualBERT vs ViLBERT)가 더 transférable한 표현을 생성하는가?
주요 결과
- 다운스트림 태스크와 정렬된 사전학습 도메인이 비주얼BERT와 ViLBERT 모두에서 도메인 외부(pretraining 외부) 학습보다 더 나은 결과를 낳는다.
- VQA-P와 COCO 사전학습은 도메인 시각/텍스트가 다운스트림 태스크와 맞을 때 특히 CC-small/-full보다 자주 더 나은 성능을 보이며; MM-IMDB는 사전학습의 이점을 거의 보이지 않는다.
- 사전학습은 임의 초기화 대비 전달 가능성을 향상시키나 태스크에 따라 이득이 다르게 나타난다; 일부 자원 소진 태스크는 사전학습으로부터 거의 이익이 없거나 음수의 이득을 보인다.
- 합성 내부 도메인 데이터(CCG)는 외부 도메인 CC를 능가하고 내부 도메인 성능에 근접한 결과를 보여주며, 라벨링 데이터가 부족한 상황에서 사전학습을 개선하는 확장 가능한 경로를 시사한다.
- VisualBERT가 보고된 설정에서 ViLBERT보다 일관되게 우수한 성능을 보이며, 베이스 모델을 고정하면 ViLBERT의 전달 가능성은 일부 태스크에서 제한적으로 나타난다.
- 파인튜닝에 가장 좋은 사전학습 모델이 베이스를 고정했을 때 항상 가장 전달 가능한 모델과 일치하지는 않으며, 파인튜닝은 다운스트림 성능을 회복시킬 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.