QUICK REVIEW

[論文レビュー] Gradient Vaccine: Investigating and Improving Multi-task Optimization in Massively Multilingual Models

Zi-Rui Wang, Yulia Tsvetkov|arXiv (Cornell University)|Oct 12, 2020

Multimodal Machine Learning Applications参考文献 40被引用数 60

ひとこと要約

大規模多言語モデルにおける損失幾何を分析し、 gradient vaccine（GradVac）と呼ばれる勾配手術法を導入。これは言語の近接性に基づいてタスク勾配を適応的に整列させ、マルチタスク最適化を改善する。

ABSTRACT

Massively multilingual models subsuming tens or even hundreds of languages pose great challenges to multi-task optimization. While it is a common practice to apply a language-agnostic procedure optimizing a joint multilingual task objective, how to properly characterize and take advantage of its underlying problem structure for improving optimization efficiency remains under-explored. In this paper, we attempt to peek into the black-box of multilingual optimization through the lens of loss function geometry. We find that gradient similarity measured along the optimization trajectory is an important signal, which correlates well with not only language proximity but also the overall model performance. Such observation helps us to identify a critical limitation of existing gradient-based multi-task learning methods, and thus we derive a simple and scalable optimization procedure, named Gradient Vaccine, which encourages more geometrically aligned parameter updates for close tasks. Empirically, our method obtains significant model performance gains on multilingual machine translation and XTREME benchmark tasks for multilingual language models. Our work reveals the importance of properly measuring and utilizing language proximity in multilingual optimization, and has broader implications for multi-task learning beyond multilingual modeling.

研究の動機と目的

多言語トレーニング中の勾配幾何が言語近接性とどのように相関するかを理解する。
勾配軌跡の類似性がクロス言語転送と全体的なモデル品質を予測するかを評価する。
不均衡でノイズの多い多言語データにおける既存の勾配ベースMTL手法の限界を特定する。
GradVac を適応的な勾配類似性の目的関数として提案・検証し、最適化を改善する。

提案手法

Transformer-Big（375Mパラメータ）を用いたEn↔Any方向およびAny↔En方向の25言語（50言語ペア）を対象とした大規模多言語NMT実験を実施。
チェックポイント時点で言語ペア間のエンコーダ/デコーダ勾配の組み合わせコサイン類似度を計算し、損失幾何を特徴づける。
幾何と性能の関係を、レイヤーとトレーニングステップを跨る勾配類似性の進化を分析して明らかにする。
PCGrad のゼロ類似性目的を批判し、GradVac を導入してφ^T_ij に基づく望ましい類似性に勾配更新を適応させる。
gi と gj の範囲内で勾配更新を導入し、ターゲット勾配類似性 φ^T_ ij に一致させる GradVac を、時間・レイヤー・タスク間で φ^t_ijk をEMAで適応させて導入する。
WMT翻訳タスクとXTREME NERベンチマークで、GradVac をモノリシックな訓練および他のMTL手法（GradNorm、MGDA、PCGrad）と比較評価する。

実験結果

リサーチクエスチョン

RQ1 typologically 相似な言語は multilingual トレーニング中により類似した損失幾何を示すか？
RQ2タスク間の勾配類似性がより良い多言語モデル品質と転送に相関するか？
RQ3不均衡でノイズの多い massively multilingual データで、幾何学的に整列した更新を意図的に促進して最適化を改善できるか？

主な発見

Model	en-fr	en-cs	en-hi	en-tr	avg	fr-en	cs-en	hi-en	tr-en	avg
モノリシックトレーニング	41.80	24.76	5.77	9.77	20.53	36.38	29.17	8.68	13.87	22.03
(2) 多言語モデル	37.24	20.22	13.69	18.77	22.48	34.29	27.66	18.48	22.01	25.61
(3) GradNorm (Chen et al., 2018b)	37.02	18.78	11.57	15.44	20.70	34.58	27.85	18.03	22.37	25.71
(4) MGDA (Sener & Koltun, 2018)	38.22	17.54	12.02	13.69	20.37	35.05	26.87	18.28	22.41	25.65
(5) PCGrad (Yu et al., 2020)	37.72	20.88	13.77	18.23	22.65	34.37	27.82	18.78	22.20	25.79
(6) PCGrad w. all_layer	38.01	21.04	13.95	18.46	22.87	34.57	27.84	18.84	22.48	25.93
(7) GradVac w. fixed_obj	38.41	21.12	13.75	18.68	22.99	34.55	27.97	18.72	22.14	25.85
(8) GradVac w. whole_model	38.76	21.32	14.22	18.89	23.30	34.84	28.01	18.85	22.24	25.99
(9) GradVac w. all_layer	39.27	21.67	14.88	19.73	23.89	35.28	28.42	19.07	22.58	26.34

勾配類似性は言語ファミリーによってクラスタリングされ、言語的近接性を反映する。
言語ペア間の勾配類似性がBLEU性能とクロス言語転送、ひいては全体的なモデル品質の向上と相関する。
勾配類似性は層や学習時間を跨って進化し、エンコーダ-デコーダのダイナミクスやリソースレベル依存性（例：言語対英語トークン空間）が類似性に影響を与える。
PCGrad は正の類似性領域でしばしば性能が低下する一方、GradVac はタスク間・層・学習ステップ全体で適応的なターゲット類似性を活用して一般化する。
GradVac（全層版）は大規模多言語NMTにおいてモノリシック訓練および他のMTLベースラインより一貫した改善を示し、Any→En および En→Any の両方向で改善が見られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。