[論文レビュー] IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages
IGLUE は 20 言語と 5 データセット、4 タスクに跨る多言語・マルチタスクの vision-and-language ベンチマークを導入し、 multilingual V&L モデルのゼロショットおよび少数ショット転移評価を可能にします。翻訳-テスト転移は通常、ゼロショットを上回り、データ入手性とタスク難易度を重要な要因として強調します。
Reliable evaluation benchmarks designed for replicability and comprehensiveness have driven progress in machine learning. Due to the lack of a multilingual benchmark, however, vision-and-language research has mostly focused on English language tasks. To fill this gap, we introduce the Image-Grounded Language Understanding Evaluation benchmark. IGLUE brings together - by both aggregating pre-existing datasets and creating new ones - visual question answering, cross-modal retrieval, grounded reasoning, and grounded entailment tasks across 20 diverse languages. Our benchmark enables the evaluation of multilingual multimodal models for transfer learning, not only in a zero-shot setting, but also in newly defined few-shot learning setups. Based on the evaluation of the available state-of-the-art models, we find that translate-test transfer is superior to zero-shot transfer and that few-shot learning is hard to harness for many tasks. Moreover, downstream performance is partially explained by the amount of available unlabelled textual data for pretraining, and only weakly by the typological distance of target-source languages. We hope to encourage future research efforts in this area by releasing the benchmark to the community.
研究の動機と目的
- 既存データを集約し、新しいクロスリンガル V&L データセットを作成することで、英語以外の多言語対応のマルチモーダル評価の動機付けと実現を図る。
- 再現性を高め、クロスリンガル転移分析を可能にする標準化されたデータ分割と少数ショット設定を提供する。
- 翻訳ベースの転移を用いた、代表的な多言語V&Lアーキテクチャとモノリンガルモデルをベンチマークする。
- データ入手性や言語類型学など、クロスリンガル転移に影響を与える要因を調査する。
提案手法
- クロスモーダル検索、VisualQA、グラウンデッド推論、クロスリンガル視覚的NLIを含む、20言語・4タスクタイプにまたがるマルチモーダルデータセットを作成・拡張する。
- 評価のためのクロスリンガル視覚的自然言語推論として XVNLI を導入し、xGQA、MaRVL、xFlickr&CO、WIT データセットを導入。
- 翻訳-テスト評価のために機械翻訳されたテストセットを含むゼロショットと標準化された少数ショット分割を提供する。
- mUNITER、xUNITER、M3P、UC2、英語ベースラインを含む公正な比較を可能にするため、統一された Volta ベースの PyTorch フレームワークで多言語V&Lエンコーダを再実装する。
- 多言語V&Lモデルを評価し、翻訳-テスト転移とゼロショット転移を、多言語エンコーダと翻訳ベースの事前学習戦略の両方を用いて比較する。
実験結果
リサーチクエスチョン
- RQ1現在の多言語マルチモーダルモデルは、ゼロショット設定で4つのV&Lタスクを横断して20言語のターゲットにどれだけ転移できるか。
- RQ2翻訳-テスト転移は、さまざまな言語とタスクに跨る多言語V&Lモデルにおいてゼロショット転移を上回るか。
- RQ3ターゲット言語データでの事前学習(translate pretrain)とテストデータの翻訳(translate test)による影響は、クロスリンガルV&Lの性能にどう影響するか。
- RQ4ラベルなしデータの入手性や英語との語彙類型学的類似性といった要因が、クロスリンガルV&L転移性能にどう影響するか。
- RQ5タスクを横断する多言語V&Lモデルの少数ショット学習の利得とデータ効率性の特性は何か。
主な発見
- Translate-test 転移はタスクと言語を問わず、ゼロショット転移より一貫して大きな利得を生む。
- 多言語モデルの中で、UC 2 はゼロショット転移でしばしば最良、一方 mUNITER は translate-test 転移で検索タスクで良好に機能する傾向がある。
- 英語の性能と比較して大きなクロスリンガル格差が存在し、特に xGQA および検索タスクで格差が大きい。
- パフォーマンスは利用可能なラベルなしデータ(Wikipedia サイズ)と相関する一方、英語との typological 類似性はより弱いまたは混合的な相関を示す。
- 少数ショット学習は効果をもたらすことがあるが、利得はデータセットと言語に強く依存し、改善を見るにはかなりのデータを要することがあり、特にクロスモーダル推論や検索のようなタスクでは顕著である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。