[論文レビュー] Cross-lingual Retrieval for Iterative Self-Supervised Training
CRISS は多言語モデルのエンコーダ出力を用いて擬似平行データを反復的に採掘し、ラベル付き平行データなしで跨言語設定の整合性と翻訳を向上させる。教師なし MT および跨言語検索でSOTAを達成。
Recent studies have demonstrated the cross-lingual alignment ability of multilingual pretrained language models. In this work, we found that the cross-lingual alignment can be further improved by training seq2seq models on sentence pairs mined using their own encoder outputs. We utilized these findings to develop a new approach -- cross-lingual retrieval for iterative self-supervised training (CRISS), where mining and training processes are applied iteratively, improving cross-lingual alignment and translation ability at the same time. Using this method, we achieved state-of-the-art unsupervised machine translation results on 9 language directions with an average improvement of 2.4 BLEU, and on the Tatoeba sentence retrieval task in the XTREME benchmark on 16 languages with an average improvement of 21.5% in absolute accuracy. Furthermore, CRISS also brings an additional 1.8 BLEU improvement on average compared to mBART, when finetuned on supervised machine translation downstream tasks.
研究の動機と目的
- 多言語デノイジングオートエンコーダのエンコーダ出力が跨言語タスクを改善する言語非依存表現を形成することを実証する。
- 単一の平行言語ペアでファインチューニングすることが多言語方向の整合性を高め得ることを示す。
- 擬似平行データを共同発見し multilingual モデルを改善する反復的な採掘訓練ループを開発する。
- CRISS を教師なしおよび教師あり MT、並びに文検索で評価し性能向上を確立する。
- 事前学習、マルチリンガル対バイリンガル訓練、ピボット言語の選択に関する洞察とアブレーションを提供する。
提案手法
- mBART を初期の多言語 Seq2Seq 前訓練モデルとして使用し、言語非依存の文表現を取得する。
- 文埋め込みのKNN近傍で差分ベースのスコアを計算し高スコアのペアを選択して擬似平行データを採掘する(Algorithm 1)。
- 採掘データ上で多言語トランスフォーマーを反復的に訓練し、改善されたモデルで再度採掘を行う(Algorithm 2)。
- 採掘ペアにターゲット言語トークンを付与して多言語 MT ファインチューニングを可能にする。
- 計算負荷を管理可能にするため採掘方向をサブセット(例:90言語ペア)に制限する。
- 教師なし MT ベンチマーク、Tatoeba XTREME風文検索、教師あり MT ファインチューニングで評価する。
実験結果
リサーチクエスチョン
- RQ1多言語デノイジングオートエンコーダーで学習した跨言語文表現は自己採掘型平行データによって改善されうるのか?
- RQ2単一の言語ペアの平行データでファインチューニングすると全方向の跨言語整合性は向上するのか?
- RQ3反復的な採掘訓練サイクルは教師なし MT および跨言語検索の性能にどのような影響を与えるのか?
- RQ4採掘された擬似平行データを使用した多言語とバイリンガルのファインチューニング戦略はどう比較されるのか?
- RQ5ピボット言語の数が検索と翻訳品質に及ぼす影響はどの程度か?
主な発見
- CRISS は9言語方向における教師なし MTの最先端結果を達成し、平均 BLEU 増分は prior methods の 2.4。
- XTREME Tatoeba の16言語で、CRISS は平均絶対精度の改善を 21.5% 得た。
- CRISS は教師付き MT 下流タスクでファインチューニングすると mBART より平均 1.8 BLEU 改善を提供。
- 単一の言語ペアでのファインチューニングは全方向の跨言語整合性を改善でき、反復的な採掘は性能をさらに向上させる。
- 多言語訓練は下流 MT タスクで採掘された擬似平行データに対して一般にバイリンガル訓練より優れている。
- 少数のピボット言語(最適解は約2言語だが最大4言語まで検証)を用いると、計算コスト増でもほぼ最適な gains を得られる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。