QUICK REVIEW

[論文レビュー] Lessons on Parameter Sharing across Layers in Transformers

Sho Takase, Shun Kiyono|arXiv (Cornell University)|Apr 13, 2021

Topic Modeling参考文献 25被引用数 24

ひとこと要約

本稿では、Universal Transformersがすべての層に1つのパラメータセットを共有するのではなく、M層のうちN層にパラメータを割り当てる3つのパラメータ共有戦略—sequence、cycle、cycle(rev)—を提案する。この手法は、同等のパrameter数と学習時間の予算のもとで、機械翻訳、音声認識、言語モデリングのタスクにおいて、Universal Transformersを上回るBLEUスコアを達成するとともに、計算コストを削減する。

ABSTRACT

We propose a parameter sharing method for Transformers (Vaswani et al., 2017). The proposed approach relaxes a widely used technique, which shares parameters for one layer with all layers such as Universal Transformers (Dehghani et al., 2019), to increase the efficiency in the computational time. We propose three strategies: Sequence, Cycle, and Cycle (rev) to assign parameters to each layer. Experimental results show that the proposed strategies are efficient in the parameter size and computational time. Moreover, we indicate that the proposed strategies are also effective in the configuration where we use many training data such as the recent WMT competition.

研究の動機と目的

Universal Transformersがすべての層に1つのパラメータセットを共有するため、大きな重み行列により高い計算コストを負うという非効率性を是正すること。
より多くの層を積み重ねながら、個々の重み行列を小さくすることで表現力の向上と計算負荷の低減を実現するパラメータ共有戦略を検討すること。
Universal Transformersが採用する1層分のパラメータ共有制約を緩和することで、さまざまなNLPおよび音声タスクにおける性能と効率性が向上するかを評価すること。
同じパrameter数と学習時間の予算のもとで、提案手法とUniversal Transformersを比較すること。
提案手法の有効性が、Post-LNおよびPre-LNの異なるTransformerアーキテクチャにおいても確認できるかを評価すること。

提案手法

提案手法は、N層のTransformerエンコーダ・デコーダを構築する際、すべてのN層に1つの層から共有するのではなく、M個の独立した層（1 ≤ M ≤ N）のパラメータを再利用することで実現する。
3つのパラメータ割り当て戦略を導入する：sequence（サイズ⌊N/M⌋の連続ブロックに同じパラメータを割り当て）、cycle（M個の基本層を循環的に再利用）、cycle(rev)（勾配の流れを改善するための逆順循環的再利用）。
M個の新しい層を初期化し、その後続の層を、直前の層を再利用する（sequence）、M個の基本層を循環的に参照する（cycle）、あるいは逆順の循環パターンを用いる（cycle(rev)）ことで、パラメータを割り当てる。
エンコーダおよびデコーダの両側に同一の割り当て論理を適用することで、モデルの深さと表現力は維持しつつ、効率的なパラメータ共有を実現する。
異なる正規化方式の一般化性を評価するため、Post-LNおよびPre-LNの両方のTransformerアーキテクチャを用いて実験を実施する。
機械翻訳（WMT）、自動音声認識、言語モデリングタスクにおいて、固定されたパラメータ数と学習時間の予算のもとで、Universal Transformersと比較して評価する。

実験結果

リサーチクエスチョン

RQ1Universal Transformersにおける1層分のパラメータ共有制約を緩和することで、性能の向上と計算コストの低減が達成できるか？
RQ21つの層ではなくM個の独立した層を用いる本手法のパラメータ共有戦略が、パラメータ数と学習時間の点で効率性を向上させるか？
RQ3sequence、cycle、cycle(rev)戦略が、機械翻訳、音声認識、言語モデリングタスクにおいてUniversal Transformersと比較してどのように性能を発揮するか？
RQ4計算コストの重要な要因となる同一の学習時間予算のもとで、本手法の性能向上が持続的か？
RQ5Post-LNおよびPre-LNといった異なるTransformerアーキテクチャにおいて、本手法の戦略は有効か？

主な発見

同じパラメータ数（M=6, N=12）を用いた場合、提案手法はUniversal Transformersをわずかに上回るBLEUスコアを達成するとともに、計算時間を削減した。
同じ学習時間予算（M=6, N=18）のもとで、提案手法は機械翻訳タスクにおいてUniversal Transformersを上回り、優れた効率性を示した。
高リソース環境、特にWMTの英語→ドイツ語翻訳タスクにおいても、提案手法はUniversal Transformersを一貫して上回る性能を発揮した。
本手法は複数のモodal（音声・テキスト）にわたり有効であり、自動音声認識および言語モデリングタスクにおいても、Universal Transformersを上回った。
cycle(rev)戦略は、特に深いモデルにおいて顕著な利点を示し、逆順の循環パターンにより勾配の流れが改善されたことが要因と考えられる。
Post-LNおよびPre-LNの両方のTransformer設定においても性能向上が確認され、アーキテクチャのバリエーションにわたり広く適用可能であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。