Skip to main content
QUICK REVIEW

[論文レビュー] Language Models with Transformers

Chenguang Wang, Mu Li|arXiv (Cornell University)|Apr 20, 2019
Topic Modeling参考文献 34被引用数 46
ひとこと要約

この論文は、Coordinate Architecture Search (CAS) を用いて、LSTM 層の追加と選択的微調整を通じて事前学習済みの GPT/BERT 系トランスフォーマーを言語モデル化へ適応させる方法を提案し、PTB、WikiText-2、WikiText-103 で最先端の LSTM を大幅に上回る困惑度を実現する。

ABSTRACT

The Transformer architecture is superior to RNN-based models in computational efficiency. Recently, GPT and BERT demonstrate the efficacy of Transformer models on various NLP tasks using pre-trained language models on large-scale corpora. Surprisingly, these Transformer architectures are suboptimal for language model itself. Neither self-attention nor the positional encoding in the Transformer is able to efficiently incorporate the word-level sequential context crucial to language modeling. In this paper, we explore effective Transformer architectures for language model, including adding additional LSTM layers to better capture the sequential context while still keeping the computation efficient. We propose Coordinate Architecture Search (CAS) to find an effective architecture through iterative refinement of the model. Experimental results on the PTB, WikiText-2, and WikiText-103 show that CAS achieves perplexities between 20.42 and 34.11 on all problems, i.e. on average an improvement of 12.0 perplexity units compared to state-of-the-art LSTMs. The source code is publicly available.

研究の動機と目的

  • 言語モデリングにおける語彙レベルの細かい順序文脈を捉えるアーキテクチャの必要性を動機づける。
  • 前提として学習済みのトランスフォーマーアーキテクチャを言語モデリングのために効率的に改良する Coordinate Architecture Search (CAS) を提案する。
  • LSTM 層の追加と選択的微調整が LSTM ベースのベースラインよりも困惑度を改善することを示す。
  • CAS が事前の GPT/BERT モデルを活用して探索コストを抑えつつ有望な結果を達成する方法を提示する。

提案手法

  • LSTM 層を増強したトランスフォーマー型言語モデルを導入し、細かな連続文脈を捉える。
  • Coordinate Architecture Search (CAS) を定義・適用し、アーキテクチャの変種を生成・評価する貪欲的で乱数サンプルを用いる手法を適用する。
  • 訓練コストを削減するため、一部の重みのみ微調整するか、事前学習済みの GPT/BERT 重みを再利用してアーキテクチャを更新する。
  • PTB、WT-2、WT-103 のサブワード語彙(WordPiece および BPE)と困惑度を評価指標として CAS の変種を評価する。
  • CAS を GPT、BERT、AWD-LSTM-MoS のベースラインと比較し、LSTM を用いない場合や固定されたトランスフォーマーブロックを用いたアブレーションを含めて比較する。
  • 報告する効率指標として NAS/ENAS/DARTS と比較した CAS の GPU-日数を挙げ、語彙と訓練データの考慮事項を説明する。

実験結果

リサーチクエスチョン

  • RQ1Transformer ベースの言語モデルに LSTM 層を追加すると語彙レベルの連続文脈モデリングに有効か?
  • RQ2貪欲的なアーキテクチャ改良探索(CAS)は、事前学習済みの GPT/BERT 出発点から高性能な言語モデルアーキテクチャを効果的に特定できるか?
  • RQ3CAS は PTB、WT-2、WT-103 における困惑度で標準の LSTM/Transformer ベースラインおよび現代の言語モデルと比較してどうか?
  • RQ4ファインチューニング戦略の影響(サブセット固定 vs 完全微調整)がデータセットサイズ間での性能と過学習に与える影響は?

主な発見

  • CAS由来のアーキテクチャ(BERT-CAS および GPT-CAS)は、PTB、WT-2、WT-103 における困惑度で AWD-LSTM-MoS ベースラインを上回る。
  • BERT-Large-CAS は強力な困惑度を達成—PTB: 31.34 (val) および WT-103 の test で 34.11 を示し、より大きな事前学習開始点の利点を示す。
  • GPT-CAS は競争力のある困惑度を達成し、特に sub-word 語彙で WT-103 の test が 34.24。
  • アブレーション研究は、LSTM を追加し Transformer 重みを部分的に更新することが、単純な GPT/BERT 使用よりも性能を大幅に向上させることを示す。
  • CAS は報告された実験において NAS/ENAS/DARTS と比較して探索効率(GPU-日数)が高いことを示す。
  • 同等のパラメータ数で比較すると、BERT-Large-CAS はしばしば GPT-2 を PTB および WT-103 で上回り、有利な効率性と有効性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。