QUICK REVIEW

[논문 리뷰] IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages

Emanuele Bugliarello, Fangyu Liu|arXiv (Cornell University)|2022. 01. 27.

Multimodal Machine Learning Applications참고 문헌 88인용 수 25

한 줄 요약

IGLUE는 20개 언어와 5개 데이터셋, 4개 과제에 걸친 다국어 다중 작업 비전-언어 벤치마크를 도입하여 다국어 V&L 모델의 제로샷 및 저샷 전이 평가를 가능하게 한다. 번역-테스트 전이가 일반적으로 제로샷보다 우수하며, 데이터 가용성과 과제 난이도가 핵심 요인으로 작용하는 것을 강조한다.

ABSTRACT

Reliable evaluation benchmarks designed for replicability and comprehensiveness have driven progress in machine learning. Due to the lack of a multilingual benchmark, however, vision-and-language research has mostly focused on English language tasks. To fill this gap, we introduce the Image-Grounded Language Understanding Evaluation benchmark. IGLUE brings together - by both aggregating pre-existing datasets and creating new ones - visual question answering, cross-modal retrieval, grounded reasoning, and grounded entailment tasks across 20 diverse languages. Our benchmark enables the evaluation of multilingual multimodal models for transfer learning, not only in a zero-shot setting, but also in newly defined few-shot learning setups. Based on the evaluation of the available state-of-the-art models, we find that translate-test transfer is superior to zero-shot transfer and that few-shot learning is hard to harness for many tasks. Moreover, downstream performance is partially explained by the amount of available unlabelled textual data for pretraining, and only weakly by the typological distance of target-source languages. We hope to encourage future research efforts in this area by releasing the benchmark to the community.

연구 동기 및 목표

영어를 넘어선 다국어 멀티모달 평가를 기존 데이터의 집계 및 새로운 크로스링크 V&L 데이터셋 생성으로 동기화하고 가능하게 한다.
복제 가능성을 개선하고 크로스링어 전이 분석을 가능하게 하는 표준화된 데이터 분할 및 저샷 설정을 제공한다.
대표적 다국어 V&L 아키텍처와 단일언어 모델을 번역 기반 전이로 벤치마크한다.
데이터 가용성 및 언어 유형학 등 크로스링크 전이에 영향을 미치는 요인을 조사한다.]
method:[
1) 교차 모달 검색, VisualQA, 근거 추론, 크로스링어 비주얼 NLI를 포함한 20개 언어와 4가지 과제 유형으로 다중모달 데이터셋을 선별·확장한다.
2) cross-lingual visual natural language inference로서 XVNLI, 평가를 위한 xGQA, MaRVL, xFlickr&CO, WIT 데이터셋을 도입한다.
3) 번역-테스트 평가를 위한 기계 번역 테스트 세트로 제로샷 및 표준화된 저샷 분할을 제공한다.
4) 공정한 비교를 가능하게 하기 위해 Volta 기반의 PyTorch 프레임워크에서 다국어 V&L 인코더를 재구현한다(모델: mUNITER, xUNITER, M3P, UC2, 영어 대조모델).
5) 다국어 V&L 모델을 평가하고, 다국어 인코더와 번역 기반 사전학습 전략을 사용한 translate-test와 제로샷 전이를 비교한다.

제안 방법

교차 모달 검색, VisualQA, 근거 추론, 크로스링구얼 비주얼 NLI를 포함한 4가지 과제 유형에 걸쳐 20개 언어의 다중모달 데이터셋을 큐레이션하고 확장한다.
XVNLI를 크로스링구얼 비주얼 자연어 추론으로, xGQA, MaRVL, xFlickr&CO 및 WIT 데이터를 평가를 위한 데이터셋으로 도입한다.
번역-테스트 평가를 위해 기계 번역된 테스트 세트를 포함한 제로샷 및 표준화된 저샷 분할을 제공한다.
모델 간의 공정한 비교를 가능하게 하기 위해 Volta 기반의 PyTorch 프레임워크에서 다국어 V&L 인코더를 재구현한다(모델: mUNITER, xUNITER, M3P, UC2, 그리고 영어 기준선).
다국어 V&L 모델을 평가하고 translate-test와 제로샷 전이를 다국어 인코더와 번역 기반 사전학습 전략으로 비교한다.

실험 결과

연구 질문

RQ1현재의 다국어 다중모달 모델이 제로샷 설정에서 4개 V&L 과제에 대해 20개 대상 언어로 얼마나 잘 전달되는가?
RQ2번역-테스트 전이가 다양한 언어와 과제에서 다국어 V&L 모델의 제로샷 전이보다 우수한가?
RQ3목표 언어 데이터에 대한 사전학습(translate pretrain) versus 테스트 데이터의 번역(translate test)이 크로스링구얼 V&L 성능에 미치는 영향은 무엇인가?
RQ4레이블 없는 데이터 가용성과 영어와의 typological 유사성과 같은 요인이 크로스링구얼 V&L 전이 성능에 어떤 영향을 미치는가?
RQ5다국어 V&L 모델의 저샷 학습 이점과 데이터 효율성은 과제에 따라 얼마나 다르고, 특히 크로스모달 추론 및 검색과 같은 일부 과제에서 개선을 보려면 상당한 데이터를 필요로 하는가?

주요 결과

translate-test 전이는 모든 과제와 언어에서 제로샷 전이보다 일관되게 더 큰 이득을 제공한다.
다국어 모델 중 UC 2는 제로샷 전이에서 대체로 가장 성능이 좋으며, translate-test 전이에서는 mUNITER가 검색 과제에서 잘 수행되는 경향이 있다.
영어 성능에 비해 큰 크로스링구얼 격차가 존재하며, 특히 xGQA 및 검색 과제에서 큰 차이가 나타난다.
대부분의 언어에서 가용 레이블이 없는 데이터(Wikipedia 규모)와의 상관관계가 성능에 영향을 주며, 영어와의 유형학적 유사성은 약하거나 혼재된 상관성을 보인다.
저샷 학습은 도움이 될 수 있지만 이익은 데이터 세트와 언어에 따라 크게 달라지며, 특히 일부 과제인 크로스모달 추론 및 검색에서 개선을 보려면 상당한 데이터가 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.