QUICK REVIEW

[논문 리뷰] VECO: Variable Encoder-decoder Pre-training for Cross-lingual Understanding and Generation

Fuli Luo, Wei Wang|arXiv (Cornell University)|2021. 05. 04.

Natural Language Processing Techniques참고 문헌 7인용 수 31

한 줄 요약

VECO는 내부 및 상호 시퀀스 마스킹 언어 모델링을 통해 이해 및 생성 작업 간 하위 모듈을 공유하는 통합 변수 인코더-디코더 사전학습 프레임워크를 제안한다. 이는 XTREME 벤치마크 과제에서 최고 성능을 기록하며, WMT14에서 번역 BLEU 점수를 최대 1–2점 향상시킨다.

ABSTRACT

Recent studies about learning multilingual representations have achieved significant performance gains across a wide range of downstream cross-lingual tasks. They train either an encoder-only Transformer mainly for understanding tasks, or an encoder-decoder Transformer specifically for generation tasks, ignoring the correlation between the two tasks and frameworks. In contrast, this paper presents a variable encoder-decoder (VECO) pre-training approach to unify the two mainstreams in both model architectures and pre-training tasks. VECO splits the standard Transformer block into several sub-modules trained with both inner-sequence and cross-sequence masked language modeling, and correspondingly reorganizes certain sub-modules for understanding and generation tasks during inference. Such a workflow not only ensures to train the most streamlined parameters necessary for two kinds of tasks, but also enables them to boost each other via sharing common sub-modules. As a result, VECO delivers new state-of-the-art results on various cross-lingual understanding tasks of the XTREME benchmark covering text classification, sequence labeling, question answering, and sentence retrieval. For generation tasks, VECO also outperforms all existing cross-lingual models and state-of-the-art Transformer variants on WMT14 English-to-German and English-to-French translation datasets, with gains of up to 1~2 BLEU.

연구 동기 및 목표

다국어 작업을 위한 인코더-오직 및 인코더-디코더 사전학습 프레임워크를 통합하기 위해.
기존 다국어 표현 학습에서 이해 모델과 생성 모델 간 상관관계 부족 문제를 해결하기 위해.
파라미터 공유와 공동 사전학습을 통해 다국어 이해 및 생성 과제 성능을 향상시키기 위해.
특정 과제에 맞게 공유된 하위 모듈을 재구성할 수 있는 유연한 추론 메커니즘 설계하기 위해.

제안 방법

VECO는 표준 트랜스포머 블록을 하위 모듈으로 분할하고, 내부 시퀀스 및 상호 시퀀스 마스킹 언어 모델링을 통해 훈련한다.
추론 시 공유된 하위 모듈을 재구성하여 이해 또는 생성 과제에 재사용한다.
통합 아키텍처 내에서 시퀀스 간 및 시퀀스-싱글 시퀀스 목표를 모두 사전학습한다.
각 과제에 대해 최소한의 필수 구성 요소만 훈련함으로써 파라미터 효율성을 달성한다.
내국어 및 상호 언어 시퀀스에서 마스킹 언어 모델링을 사용하여 다국어 전이 성능을 향상시킨다.
추론 중 과제 유형에 따라 하위 모듈을 동적으로 선택하고 활성화한다.

실험 결과

연구 질문

RQ1통합 모델 아키텍처가 다국어 이해 및 생성 과제 전반에서 성능 향상에 기여할 수 있는가?
RQ2인코더 및 디코더 구성 요소 간 하위 모듈을 공유할 경우 모델의 효율성과 성능에 어떤 영향을 미치는가?
RQ3내부 및 상호 시퀀스 마스킹을 통한 공동 사전학습이 다국어 전이에 얼마나 기여하는가?
RQ4기존의 전용 인코더-오직 또는 인코더-디코더 모델에 비해 변수 아키텍처가 표준 벤치마크에서 더 우수한 성능을 내는가?
RQ5공유된 하위 모듈이 이해 및 생성 성능 향상에 기여하면서도 어느 한 쪽의 성능을 손상시키지 않는가?

주요 결과

VECO는 텍스트 분류, 시퀀스 레이블링, 질의 응답, 문장 검색을 포함한 모든 XTREME 벤치마크 과제에서 새로운 최고 성능을 기록한다.
기존의 다국어 모델 대비 WMT14 영어-독일어 및 영어-프랑스어 번역 과제에서 최대 1–2 BLEU 점수 향상으로 성능을 향상시킨다.
통합 아키텍처는 다양한 다국어 과제에서 높은 성능를 유지하면서도 파라미터 중복을 줄인다.
공유된 하위 모듈은 이해 및 생성 능력 간 상호 보완적 향상을 가능하게 한다.
저자원 및 고자원 언어 쌍 모두에서 강력한 일반화 성능을 보여준다.
제거 실험을 통해 내부 시퀀스 및 상호 시퀀스 마스킹이 성능 향상에 기여하는 데 중요한 역할을 한다는 것이 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.