QUICK REVIEW

[논문 리뷰] Deep Transformers with Latent Depth

Xian Li, Asa Cooper Stickland|arXiv (Cornell University)|2020. 01. 01.

Natural Language Processing Techniques인용 수 10

한 줄 요약

이 논문은 사후 분포를 통한 계층 선택 학습을 통해 깊이 있는 트랜스포머를 훈련하는 확률적 프레임워크를 제안하며, 100층에 이르는 네트워크의 안정적인 훈련을 가능하게 한다. 이는 다국어 번역으로 확장되어 각 언어 조합에 맞는 동적 계층 선택을 통해 다양한 언어 조합 간 성능 향상을 이룬다.

ABSTRACT

The Transformer model has achieved state-of-the-art performance in many sequence modeling tasks. However, how to leverage model capacity with large or variable depths is still an open challenge. We present a probabilistic framework to automatically learn which layer(s) to use by learning the posterior distributions of layer selection. As an extension of this framework, we propose a novel method to train one shared Transformer network for multilingual machine translation with different layer selection posteriors for each language pair. The proposed method alleviates the vanishing gradient issue and enables stable training of deep Transformers (e.g. 100 layers). We evaluate on WMT English-German machine translation and masked language modeling tasks, where our method outperforms existing approaches for training deeper Transformers. Experiments on multilingual machine translation demonstrate that this approach can effectively leverage increased model capacity and bring universal improvement for both many-to-one and one-to-many translation with diverse language pairs.

연구 동기 및 목표

기울기 소실과 안정하지 않은 최적화로 인해 매우 깊은 트랜스포머(예: 100층)를 훈련하는 데 발생하는 과제를 해결하기 위해.
입력에 따라 어떤 계층을 사용할지 학습된 사후 분포 기반으로 자동으로 학습하는 방법을 개발하기 위해.
다양한 언어 조합 간 다국어 번역에서 동일한 공유 트랜스포머가 각 조합에 맞는 별도의 계층 선택 전략을 가질 수 있도록 하기 위해.
추론 비용을 증가시키지 않으면서도 훈련 안정성을 해치지 않고 시퀀스 모델링 작업에서 모델 용량 활용도를 향상시키기 위해.

제안 방법

훈련 중 계층 깊이에 대한 사후 분포를 학습하는 확률적 프레임워크를 도입한다.
계층 선택 사후 분포에서 미분 가능한 샘플링을 사용하여 깊이 선택 메커니즘을 통해 엔드 투 엔드 백프로파게이션을 가능하게 한다.
각 언어 조합에 대해 별도의 계층 선택 사후 분포를 가진다.
공유된 트랜스포머 백본을 사용하면서도, 학습된 라우팅을 통해 각 언어 조합이 서로 다른 효과적 깊이에 주목할 수 있도록 한다.
학습 가능한 라우팅 확률을 활용한 스토하스틱 디pth 스타일 훈련을 통해 깊은 네트워크에서 기울기 안정성을 확보한다.
표준 목표(예: 번역에 대한 교차 엔트로피)를 사용하여 계층 선택과 모델 파라미터를 동시에 최적화한다.

실험 결과

연구 질문

RQ1확률적 계층 선택 메커니즘이 매우 깊은 트랜스포머(예: 100층)에서 훈련을 안정화시킬 수 있는가?
RQ2언어별로 별도의 계층 선택 사후 분포를 학습하면 다국어 기계 번역 성능이 향상되는가?
RQ3제안된 방법은 훈련 안정성과 수렴성 측면에서 표준 깊은 트랜스포머와 비교해 어떻게 다른가?
RQ4동일한 공유 모델 아키텍처가 각 언어 조합에 맞는 깊이를 적응시킴으로써 다양한 언어 조합에서 뛰어난 성능을 달성할 수 있는가?
RQ5이 방법은 마스크된 언어 모델링 및 번역 작업에서 성능 향상에 어느 정도 기여하는가?

주요 결과

이 방법은 기울기 소실 문제로 인해 일반적으로 깊은 아키텍처에서 발생하는 문제를 극복하고, 최대 100층까지의 트랜스포머를 안정적으로 훈련시킬 수 있다.
WMT 영어-독일어 번역에서, 제안된 방법은 더 깊은 트랜스포머를 훈련하는 데 있어 기존 접근법을 능가한다.
다국어 기계 번역에서, 이 방법은 다수 대 일 및 일 대 다수 번역 설정 모두에서 일관된 성능 향상을 이룬다.
각 언어 조합에 맞는 별도의 계층 선택 전략을 학습함으로써 모델 용량을 효과적으로 활용함으로써 더 높은 성능을 달성한다.
추론 복잡도를 증가시키지 않으면서도 다양한 언어 조합 간 보편적인 성능 향상을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.