QUICK REVIEW

[논문 리뷰] Lessons on Parameter Sharing across Layers in Transformers

Sho Takase, Shun Kiyono|arXiv (Cornell University)|2021. 04. 13.

Topic Modeling참고 문헌 25인용 수 24

한 줄 요약

이 논문은 Universal Transformers에서 모든 레이어에 하나의 파라미터 세트를 공유하는 것과는 달리, M개의 레이어에서 파라미터를 공유하는 세 가지 파라미터 공유 전략—sequence, cycle, cycle(rev)—을 제안한다. 이 방법은 동일한 파라미터 및 학습 시간 예산 하에서 기계 번역, 음성 인식, 언어 모델링 과제에서 더 높은 BLEU 점수를 달성하면서도 계산 비용을 절감하여 Universal Transformers를 능가한다.

ABSTRACT

We propose a parameter sharing method for Transformers (Vaswani et al., 2017). The proposed approach relaxes a widely used technique, which shares parameters for one layer with all layers such as Universal Transformers (Dehghani et al., 2019), to increase the efficiency in the computational time. We propose three strategies: Sequence, Cycle, and Cycle (rev) to assign parameters to each layer. Experimental results show that the proposed strategies are efficient in the parameter size and computational time. Moreover, we indicate that the proposed strategies are also effective in the configuration where we use many training data such as the recent WMT competition.

연구 동기 및 목표

Universal Transformers가 모든 레이어에 하나의 파라미터 세트를 사용함으로써 높은 계산 비용을 유발하는 비효율성 문제를 해결하기 위해.
더 작은 개별 가중치 행렬을 가진 더 많은 레이어를 스태킹할 수 있는 파라미터 공유 전략을 탐색하여 표현력은 높이고 계산 부담은 줄이기 위해.
Universal Transformers의 한 레이어 파라미터 공유 제약 조건을 완화하면 다양한 NLP 및 음성 과제에서 성능과 효율성이 향상되는지 평가하기 위해.
동일한 파라미터 수와 학습 시간 예산 하에서 제안된 전략을 Universal Transformers와 비교하기 위해.
제안된 전략이 Post-LN 및 Pre-LN과 같은 다양한 Transformer 아키텍처에서 효과적인지 평가하기 위해.

제안 방법

제안된 방법은 N개의 레이어로 구성된 Transformer 인코더-디코더를 M개의 독립된 레이어에서 파라미터를 재사용함으로써 구성한다. 여기서 1 ≤ M ≤ N이며, 모든 N개 레이어에 하나의 레이어에서 파라미터를 공유하는 것이 아니라 M개의 기반 레이어에서 파라미터를 재사용한다.
세 가지 파라미터 할당 전략이 도입된다: sequence(크기 ⌊N/M⌋인 연속 블록에 동일한 파라미터 할당), cycle(기반 M개 레이어를 순환적으로 재사용), cycle(rev)(더 깊은 모델에서 더 나은 기울기 흐름을 확보하기 위해 순환 패턴을 뒤집어 사용).
알고리즘은 M개의 새로운 레이어를 초기화하고, 이후 레이어를 이전 레이어를 재사용함으로써(Sequence), 기반 M개 레이어를 순환적으로 재사용함으로써(Cycle), 또는 뒤집힌 순환 패턴을 사용함으로써(Cycle(rev)) 할당한다. 이는 학습 동역학을 향상시킨다.
모델의 깊이와 표현력을 유지하면서도 효율적인 파라미터 공유를 가능하게 하기 위해, 인코더 및 디코더 양쪽에 동일한 할당 논리를 적용한다.
다양한 정규화 방식에 대한 일반화 성능 평가를 위해 Post-LN 및 Pre-LN Transformer 아키텍처를 모두 사용하여 실험을 수행한다.
기계 번역(WMT), 자동 음성 인식, 언어 모델링 과제에서 제안된 방법을 평가하며, 고정된 파라미터 수와 학습 시간 예산 하에서 Universal Transformers와의 비교를 수행한다.

실험 결과

연구 질문

RQ1Universal Transformers에서 한 레이어의 파라미터 공유 제약 조건을 완화하면 성능 향상과 계산 비용 절감이 이루어지는가?
RQ2M개의 독립된 레이어를 사용하는 제안된 파라미터 공유 전략이 파라미터 수와 학습 시간 측면에서 효율성을 향상시키는가?
RQ3sequence, cycle, cycle(rev) 전략이 기계 번역, 음성 인식, 언어 모델링 과제에서 Universal Transformers와 비교해 어떻게 성능을 냅니다?
RQ4계산 효율성이 중요한 상황에서 동일한 학습 시간 예산 하에서도 제안된 방법의 성능 향상이 유지되는가?
RQ5Post-LN 및 Pre-LN과 같은 다양한 Transformer 아키텍처에서 제안된 전략은 효과적인가?

주요 결과

동일한 파라미터 수(M=6, N=12)를 사용할 때 제안된 전략은 Universal Transformers보다 略적으로 높은 BLEU 점수를 기록하면서도 계산 시간을 절감하였다.
동일한 학습 시간 예산(M=6, N=18) 하에서 제안된 방법은 기계 번역 과제에서 Universal Transformers를 능가하여 뛰어난 효율성을 입증하였다.
고자원 환경, 특히 WMT 영어-독일어 번역 과제에서 제안된 전략은 Universal Transformers에 비해 일관된 성능 향상을 보였다.
다양한 모odalities에서 효과적이었으며, 자동 음성 인식 및 언어 모델링 과제 모두에서 Universal Transformers를 능가하는 성능을 보였다.
깊은 모델에서 cycle(rev) 전략은 뒤집힌 순환 패턴으로 인해 기울기 흐름이 향상되어 특히 유리한 성능을 보였다.
Post-LN 및 Pre-LN Transformer 설정 모두에서 성능 향상이 관찰되어, 아키텍처 변형에 널리 적용 가능한 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.