Skip to main content
QUICK REVIEW

[论文解读] IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages

Emanuele Bugliarello, Fangyu Liu|arXiv (Cornell University)|Jan 27, 2022
Multimodal Machine Learning Applications参考文献 88被引用 25
一句话总结

IGLUE 引入一个多语言、多任务的视觉-语言基准,涵盖 20 种语言和 4 项任务,跨 5 个数据集,支持对多语言 V&L 模型的零样本和少样本传输评估。它显示 translate-test 传输通常优于 zero-shot,并强调数据可用性和任务难度是关键因素。

ABSTRACT

Reliable evaluation benchmarks designed for replicability and comprehensiveness have driven progress in machine learning. Due to the lack of a multilingual benchmark, however, vision-and-language research has mostly focused on English language tasks. To fill this gap, we introduce the Image-Grounded Language Understanding Evaluation benchmark. IGLUE brings together - by both aggregating pre-existing datasets and creating new ones - visual question answering, cross-modal retrieval, grounded reasoning, and grounded entailment tasks across 20 diverse languages. Our benchmark enables the evaluation of multilingual multimodal models for transfer learning, not only in a zero-shot setting, but also in newly defined few-shot learning setups. Based on the evaluation of the available state-of-the-art models, we find that translate-test transfer is superior to zero-shot transfer and that few-shot learning is hard to harness for many tasks. Moreover, downstream performance is partially explained by the amount of available unlabelled textual data for pretraining, and only weakly by the typological distance of target-source languages. We hope to encourage future research efforts in this area by releasing the benchmark to the community.

研究动机与目标

  • 通过整合现有数据并创建新的跨语言 V&L 数据集,激励并实现英语以外的多语言多模态评估。
  • 提供标准化的数据划分和少样本设置,以提升可重复性并促进跨语言迁移分析。
  • 以基于翻译的迁移对代表性的多语言 V&L 架构和单语模型进行基准评测。
  • 调查影响跨语言迁移的因素,包括数据可用性和语言类型学特性。

提出的方法

  • 策划并扩展跨 20 种语言和 4 种任务类型的多模态数据集,包括跨模态检索、视觉问答、基于证据的推理,以及跨语言视觉自然语言推理。
  • 引入 XVNLI 作为跨语言视觉自然语言推理,以及用于评估的 xGQA、MaRVL、xFlickr&CO 和 WIT 数据集。
  • 提供零-shot 和标准化少样本分组,以及用于 translate-test 评估的机器翻译测试集。
  • 在统一的 Volta 基 PyTorch 框架中重新实现多语言 V&L 编码器,以实现跨模型的公平比较(mUNITER、xUNITER、M3P、UC2,以及英文基线)。
  • 评估多语言 V&L 模型,并使用多语言编码器和基于翻译的预训练策略比较 translate-test 与 zero-shot 迁移。

实验结果

研究问题

  • RQ1在零-shot 设置下,当前的多语言多模态模型在 20 种目标语言的 4 项 V&L 任务上的迁移能力如何?
  • RQ2对于不同语言和任务,translate-test 迁移是否优于 zero-shot 迁移?
  • RQ3在跨语言 V&L 性能上,针对目标语言数据的预训练(translate pretrain)与对测试数据进行翻译(translate test)之间的影响是什么?
  • RQ4无标签数据可用性和与英语的类型学相似性等因素如何影响跨语言 V&L 的迁移性能?
  • RQ5在各任务中,多语言 V&L 模型的少样本学习增益和数据效率特征是什么?

主要发现

  • translate-test 迁移在各任务和语言中始终比 zero-shot 迁移带来更大收益。
  • 在多语言模型中,UC 2 在零样本迁移下通常表现最佳,而在 translate-test 迁移下,mUNITER 往往在检索任务表现良好。
  • 相对于英语性能存在较大的跨语言差距,xGQA 和检索任务的差距尤为显著。
  • 在大多数语言中,性能与可用的无标签数据(Wikipedia 大小)相关,而与英语的类型学相似性相关性较弱或混合。
  • 少样本学习有帮助,但增益高度依赖数据集和语言,且要看到改进可能需要大量数据,特别是在跨模态推理和检索等任务。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。