[論文レビュー] Enhancing Cross-lingual Transfer by Manifold Mixup
X-Mixupはソース言語とターゲット言語間のクロスリンガル表現のずれをマニフォールド混成を通じて減らし、XTREMEの結果を全体で約1.8%改善し、転送ギャップを縮小します。
Based on large-scale pre-trained multilingual representations, recent cross-lingual transfer methods have achieved impressive transfer performances. However, the performance of target languages still lags far behind the source language. In this paper, our analyses indicate such a performance gap is strongly associated with the cross-lingual representation discrepancy. To achieve better cross-lingual transfer performance, we propose the cross-lingual manifold mixup (X-Mixup) method, which adaptively calibrates the representation discrepancy and gives a compromised representation for target languages. Experiments on the XTREME benchmark show X-Mixup achieves 1.8% performance gains on multiple text understanding tasks, compared with strong baselines, and significantly reduces the cross-lingual representation discrepancy.
研究の動機と目的
- 高・資源不足言語間の持続的なクロスリンガル転送ギャップによって研究の動機を示す。
- 普遍的多言語空間における表現のずれが転送ギャップを説明するかを調査する。
- 訓練時および推論時にクロスリンガルのずれを明示的に緩和する手法を提案する。
- 混成を用いて較正された表現が言語間の理解タスクを改善することを示す。
提案手法
- Cross-Lingual Manifold Mixup (X-Mixup)を導入し、選択したエンコーダ層内でソース/ターゲットの並列表現間で混成を行う。
- ターゲット隠れ状態がソース表現に注意を払い、ターゲット表現と線形補間されるクロスリンガルの注意ベース混成ステップを計算する。
- 翻訳エントロピー(H(A))と学習パラメータに依存する適応的混成比lambdaで翻訳品質をモデル化し、より堅牢な混成を確保する。
- 露出バイアスを軽減するため訓練/推論分布を合わせるScheduled Samplingを組み込む。
- ソース/ターゲット表現を整合させるためにタスク損失と表現・予測整合性損失を組み合わせた共同訓練目的を定義する。
実験結果
リサーチクエスチョン
- RQ1クロスリンガル表現のずれは言語間の転送性能を予測できるか?
- RQ2manifold mixupによってクロスリンガル表現のずれを明示的に減らすとXTREMEタスクのゼロリソース転送が改善されるか?
- RQ3混成比、スケジュールドサンプリング、整合性損失は性能とロバスト性にどのように寄与するか?
- RQ4異なるタスクタイプにおいてクロスリンガル・マニフォールド混成を実装するのに最適なエンコーダ層はどれか?
主な発見
| Model | XNLI (Acc) | PAWS-X (Acc) | POS (F1) | NER (F1) | XQuAD (F1/EM) | MLQA (F1/EM) | TyDiQA (F1/EM) | Avg |
|---|---|---|---|---|---|---|---|---|
| XLM-R (Hu et al., 2020) | 79.2 | 86.4 | 73.8 | 65.4 | 76.6/60.8 | 71.6/53.2 | 65.1/45.0 | 70.1 |
| Trans-train (Wei et al., 2020) | 82.9 | 90.1 | 74.6 | 66.8 | 80.4/65.6 | 72.4/54.7 | 66.2/48.2 | 72.6 |
| Filter (Fang et al., 2020) | 83.9 | 91.4 | 76.2 | 67.7 | 82.4/68.0 | 76.2/57.7 | 68.3/50.9 | 74.4 |
| xTune (Zheng et al., 2021) | 84.8 | 91.6 | 79.3† | 69.9† | 82.5/69.0† | 75.0/57.1† | 75.4/60.8† | 76.5 |
| X-Mixup | 85.3 | 91.8 | 78.4 | 69.0 | 82.6/69.3 | 76.5/58.1 | 69.0/52.8 | 75.5 |
| mBERT (Hu et al., 2020) | 65.4 | 81.9 | 71.5 | 62.2 | 64.5/49.4 | 61.4/44.2 | 59.7/43.9 | 63.2 |
| Trans-train (Hu et al., 2020) | 75.1 | 88.9 | - | - | 72.4/58.3 | 67.6/49.8 | 59.5/45.8 | - |
| X-Mixup (mBERT) | 78.8 | 89.7 | 76.5 | 65.0 | 73.3/58.9 | 69.0/50.9 | 60.8/46.5 | 70.0 |
- X-Mixupは複数言語とバックボーンにまたがるXTREMEタスクで平均1.8%の利益を達成。
- X-Mixupはクロスリンガル表現のずれを大幅に減らすことを、言語セントロイド分析とCKAスコアの向上で示す。
- X-MixupはXLM-RおよびmBERTバックボーンでTranslate-trainやFilterなどの強力なベースラインを一貫して上回る。
- アブレーション研究は主要な構成要素(混成、スケジュールドサンプリング、整合性損失)のいずれも利得に寄与することを示し、適切な層の混成がタスク依存である。
- X-Mixupは一部のベースラインと比較してクロスリンガル転送ギャップを最大約40%縮小し、いくつかのデータセットで最小ギャップを達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。