Skip to main content
QUICK REVIEW

[論文レビュー] Demystifying the Better Performance of Position Encoding Variants for Transformer

Pu-Chin Chen, Henry Tsai|arXiv (Cornell University)|Apr 18, 2021
Natural Language Processing Techniques参考文献 21被引用数 7
ひとこと要約

本稿では、学習された相対的位置埋め込みを用いて、Transformer モデルに直接的位置情報とセグメント情報を符号化する単純ながらも効果的な手法を提案する。GLUE、XTREME、WMT ベンチマークにおいて最先端の性能を達成するとともに、計算コストを削減する。この手法は、標準的な絶対的位置埋め込みと比較して、一般化性能と効率性を向上させる。

ABSTRACT

Transformers are state of the art models in NLP that map a given input sequence of vectors to an output sequence of vectors. However these models are permutation equivariant, and additive position embeddings to the input are used to supply the information about the order of the input tokens. Further, for some tasks, additional additive segment embeddings are used to denote different types of input sentences. Recent works proposed variations of positional encodings with relative position encodings achieving better performance. In this work, we do a systematic study comparing different position encodings and understanding the reasons for differences in their performance. We demonstrate a simple yet effective way to encode position and segment into the Transformer models. The proposed method performs on par with SOTA on GLUE, XTREME and WMT benchmarks while saving computation costs.

研究の動機と目的

  • 相対的位置符号化のバリエーションが、実際の応用においてなぜ標準的な絶対的位置符号化を上回るのかを理解すること。
  • モデル性能を向上させるために、位置およびセグメント符号化における体系的な改善を同定すること。
  • 計算オーバーヘッドを低減しつつ、SOTA性能を維持または上回る手法を開発すること。
  • 系列モデリングにおける位置およびセグメント情報の統一的かつ効率的な符号化スキームを提供すること。

提案手法

  • 標準的な絶対的位置埋め込みを、トークン間の関係をより効果的に捉えることができる学習された相対的位置埋め込みに置き換える。
  • セグメント埋め込みをアテンションメカニズムに直接統合し、別個の加法的埋め込みを回避する。
  • スケーリングドット積分アテンションメカニズムに相対的位置バイアスを組み込むことで、トークンの順序とセグメントの違いのモデリングを向上させる。
  • アテンション計算以外のアーキテクチャ変更を要せず、標準的な最適化手法を用いてエンドツーエンドで学習する。
  • GLUE、XTREME、WMT などの複数のベンチマークで、標準的な学習環境下で評価する。

実験結果

リサーチクエスチョン

  • RQ1なぜ相対的位置符号化のバリエーションが実際の応用において一貫して絶対的位置符号化を上回るのか?
  • RQ2位置およびセグメント情報は、どのようにより効果的に符号化できるか?
  • RQ3複数の加法的埋め込みを置き換える統一的かつ効率的な符号化スキームは、性能を損なわずに実現可能か?
  • RQ4相対的位置符号化は、モデルの一般化性能および計算コストにどのような影響を与えるか?

主な発見

  • 提案手法は、推論コストを増加させることなく、GLUEベンチマークで最先端の性能を達成した。
  • XTREMEベンチマークでもSOTA結果を達成または上回り、計算要件を低減した。
  • 相対的トークン関係のより良いモデリングのおかげで、多様なNLPタスクにおける一般化性能が向上した。
  • 別個の加法的位置およびセグメント埋め込みの必要性が不要になり、アーキテクチャが簡素化された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。