QUICK REVIEW

[논문 리뷰] Gradient Vaccine: Investigating and Improving Multi-task Optimization in Massively Multilingual Models

Zi-Rui Wang, Yulia Tsvetkov|arXiv (Cornell University)|2020. 10. 12.

Multimodal Machine Learning Applications참고 문헌 40인용 수 60

한 줄 요약

본 논문은 대규모 다국어 모델의 손실 기하를 분석하고, 언어 간 근접성에 따라 작업 그래디언트를 적응적으로 정렬하는 Gradient Vaccine(GradVac)라는 그래디언트 수술 방법을 제안하여 다중 작업 최적화를 개선한다.

ABSTRACT

Massively multilingual models subsuming tens or even hundreds of languages pose great challenges to multi-task optimization. While it is a common practice to apply a language-agnostic procedure optimizing a joint multilingual task objective, how to properly characterize and take advantage of its underlying problem structure for improving optimization efficiency remains under-explored. In this paper, we attempt to peek into the black-box of multilingual optimization through the lens of loss function geometry. We find that gradient similarity measured along the optimization trajectory is an important signal, which correlates well with not only language proximity but also the overall model performance. Such observation helps us to identify a critical limitation of existing gradient-based multi-task learning methods, and thus we derive a simple and scalable optimization procedure, named Gradient Vaccine, which encourages more geometrically aligned parameter updates for close tasks. Empirically, our method obtains significant model performance gains on multilingual machine translation and XTREME benchmark tasks for multilingual language models. Our work reveals the importance of properly measuring and utilizing language proximity in multilingual optimization, and has broader implications for multi-task learning beyond multilingual modeling.

연구 동기 및 목표

다국어 학습 중 그래디언트 기하가 언어 근접성과 어떻게 상관관계가 있는지 이해한다.
그래디언트 경로의 유사성이 교차언어 전이와 전반적인 모델 품질을 예측하는지 평가한다.
불균형하고 노이즈가 많은 다국어 데이터에서 기존 그래디언트 기반 다중 작업 학습(MTL) 방법의 한계를 식별한다.
그래디언트 유사성 적응 목표로서 GradVac를 제안하고 최적화를 개선하는지 검증한다.

제안 방법

Transformer-Big(375M 파라미터)을 사용하여 En↔Any 방향 및 Any↔En 방향에서 25개 언어(50개 언어쌍)의 대규모 다국어 NMT 실험을 수행한다.
체크포인트에서 언어 쌍 간 인코더/디코더 그래디언트의 쌍별 코사인 유사도를 계산하여 손실 기하를 특성화한다.
레이어 및 학습 단계에 걸친 그래디언트 유사성의 변화를 분석하여 기하학적 특징을 언어 근접성과 성능과 연관시킨다.
PCGrad의 무유사성(zero-similarity) 목표를 비판하고 원하는 유사도 φ^T_ij에 맞추어 그래디언트 업데이트를 적응시키는 GradVac를 도출한다.
시간/레이어/작업에 걸쳐 φ^t_ijk를 적응시키기 위해 EMA를 사용하여 목표 그래디언트 유사도 φ^T_ij에 맞추도록 gi와 gj의 span 내에서 그래디언트 업데이트를 갖는 GradVac를 도입한다.
WMT 번역 과제 및 XTREME NER 벤치마크에서 단일화된 학습 및 기본 MTL 방법(GradNorm, MGDA, PCGrad)과 비교하여 GradVac를 평가한다.

실험 결과

연구 질문

RQ1타입적으로 유사한 언어들이 다국어 학습 동안 더 유사한 손실 기하를 보이는가?
RQ2작업 간 더 높은 그래디언트 유사성이 더 나은 다국어 모델 품질과 전이와 상관관계가 있는가?
RQ3비균형적이고 노이즈가 많은 대규모 다국어 데이터에서 기하학적으로 정렬된 업데이트를 의도적으로 촉진하여 최적화를 개선할 수 있는가?

주요 결과

모델	en-fr	en-cs	en-hi	en-tr	avg	fr-en	cs-en	hi-en	tr-en	avg
Monolithic Training	41.80	24.76	5.77	9.77	20.53	36.38	29.17	8.68	13.87	22.03
(2) 다국어 모델	37.24	20.22	13.69	18.77	22.48	34.29	27.66	18.48	22.01	25.61
(3) GradNorm (Chen 등, 2018b)	37.02	18.78	11.57	15.44	20.70	34.58	27.85	18.03	22.37	25.71
(4) MGDA (Sener & Koltun, 2018)	38.22	17.54	12.02	13.69	20.37	35.05	26.87	18.28	22.41	25.65
(5) PCGrad (Yu 등, 2020)	37.72	20.88	13.77	18.23	22.65	34.37	27.82	18.78	22.20	25.79
(6) PCGrad w. all_layer	38.01	21.04	13.95	18.46	22.87	34.57	27.84	18.84	22.48	25.93
(7) GradVac w. fixed_obj	38.41	21.12	13.75	18.68	22.99	34.55	27.97	18.72	22.14	25.85
(8) GradVac w. whole_model	38.76	21.32	14.22	18.89	23.30	34.84	28.01	18.85	22.24	25.99
(9) GradVac w. all_layer	39.27	21.67	14.88	19.73	23.89	35.28	28.42	19.07	22.58	26.34

그래디언트 유사성은 언어 계통에 따라 군집화되며, 이는 언어적 근접성을 반영한다.
언어 쌍 간의 더 높은 그래디언트 유사성은 BLEU 성능 및 교차 언어 전이와 더 높은 전반적 모델 품질과 상관관계가 있다.
그래디언트 유사성은 레이어와 학습 시간에 걸쳐 변하며, 인코더-디코더 역학 및 자원 수준 의존성(예: 언어 토큰 공간 대 영어 토큰 공간)이 유사성에 영향을 준다.
PCGrad는 양의 유사성 영역에서 종종 성능이 떨어지며; GradVac는 작업 쌍, 레이어, 학습 단계에 걸친 적응적 목표 유사성을 활용해 일반화한다.
GradVac(전 레이어 버전)는 대규모 다국어 NMT에서 단일화 학습 및 다른 MTL 기준선 대비 일관된 이득을 제공하며 Any→En 및 En→Any 방향 모두에서 개선이 확인된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.