QUICK REVIEW

[論文レビュー] TRANS-BLSTM: Transformer with Bidirectional LSTM for Language Understanding

Zhiheng Huang, Peng Xu|arXiv (Cornell University)|Mar 16, 2020

Topic Modeling参考文献 27被引用数 25

ひとこと要約

本稿では、BERTの各トランスフォーマー・ブロックに双方向LSTM（BLSTM）層を統合するハイブリッドアーキテクチャ、TRANS-BLSTMを提案する。このモデルは、トランスフォーマーの長距離依存関係処理能力とBLSTMの逐次的モデリング能力を組み合わせ、SQuAD 1.1（F1: 94.01%）で最先端の性能を達成し、GLUEベンチマークでもBERTベースラインを常に上回る精度を示した。これは、モデルサイズの拡大を超えて表現学習を向上させるために、アーキテクチャの統合が有効であることを示している。

ABSTRACT

Bidirectional Encoder Representations from Transformers (BERT) has recently achieved state-of-the-art performance on a broad range of NLP tasks including sentence classification, machine translation, and question answering. The BERT model architecture is derived primarily from the transformer. Prior to the transformer era, bidirectional Long Short-Term Memory (BLSTM) has been the dominant modeling architecture for neural machine translation and question answering. In this paper, we investigate how these two modeling techniques can be combined to create a more powerful model architecture. We propose a new architecture denoted as Transformer with BLSTM (TRANS-BLSTM) which has a BLSTM layer integrated to each transformer block, leading to a joint modeling framework for transformer and BLSTM. We show that TRANS-BLSTM models consistently lead to improvements in accuracy compared to BERT baselines in GLUE and SQuAD 1.1 experiments. Our TRANS-BLSTM model obtains an F1 score of 94.01% on the SQuAD 1.1 development dataset, which is comparable to the state-of-the-art result.

研究の動機と目的

トランスフォーマーと双方向LSTM（BLSTM）アーキテクチャを統合することで、モデルサイズの拡大を越えて言語表現を向上させられるかを調査すること。
BERTのマスク言語モデル学習の目的関数の限界を克服するため、BLSTMによる逐次的モデリングを統合すること。
トランスフォーマーの長距離依存関係処理能力とBLSTMの文脈的逐次モデリング能力を活かす統合モデリングフレームワークを構築すること。
ハイブリッドアーキテクチャが、純粋なBERTおよび独立したBLSTMモデルよりも標準的なNLPベンチマークで優れた性能を示すかを評価すること。
モデルサイズの増大ではなく、アーキテクチャの強化が、トランスファーラーニングにおける一貫した精度向上をもたらすかを検討すること。

提案手法

提案されたTRANS-BLSTMアーキテクチャは、トランスフォーマー・エンコーダー内の各マルチヘッド自己注意ブロックの直後にBLSTM層を挿入する。
各トランスフォーマー・ブロックは、マルチヘッド自己注意処理、その後にフィードフォワードネットワークと残差接続を経て、その出力に追加でBLSTM層を適用する。
モデルは、部分語マスキングよりも性能が向上する、ワールド単位マスキングをプレトレーニング中に使用する。
安定性を高めるために、学習率探索と複数回のランダム再起動を伴う、標準的なBERTスタイルのファインチューニングをダウンストリームタスクに適用する。
SQuAD 1.1およびGLUEベンチマークで、BERT-base、BERT-large、BERT-xlargeモデルと比較して評価する。
モデルは、バッチサイズ32およびGLUEタスクでのファインチューニングに3エポックを用いる、標準的なBERTハイパーパrameterで訓練される。

実験結果

リサーチクエスチョン

RQ1各トランスフォーマー・ブロックにBLSTM層を統合することで、標準的なBERTと比較してNLPベンチマークでの性能向上が達成できるか？
RQ2トランスフォーマーとBLSTMの統合的モデリングは、BERTで見られるプレトレーニングとファインチューニングの乖離を緩和できるか？
RQ3性能向上は、アーキテクチャの統合によるものか、単にモデル容量の増大によるものか？
RQ4精度とトレーニングの安定性の観点から、ハイブリッドモデルは独立したBLSTMおよびBERTモデルと比較してどうなるか？
RQ5モデルサイズの増大よりも、アーキテクチャの強化が、精度向上の観点で優れているか？

主な発見

TRANS-BLSTMモデルは、SQuAD 1.1の開発セットでF1スコア94.01%を達成し、最先端の結果に一致した。
SQuAD 1.1において、大規模なTRANS-BLSTMモデルは、ベースラインBERTのF1を90.05%から94.01%まで向上させ、一貫した向上を示した。
GLUEでは、TRANS-BLSTMのベースモデルが平均スコアを84.63%（TRANS/BERT）から85.35%に、大規模モデルが85.59%から86.50%に向上させた。
48層のモデル（TRANS/BERT-48）は、24層のBERT-largeモデルと同等の精度に留まり、深さの増大による利得の減少を示した。
BERT-largeの隠れ層サイズを単に2倍（2048に）にした場合、SQuAD 1.1でのF1スコアは86.3%に低下し、サイズの増大だけでは性能が悪化することを示した。
独立したBLSTMおよびBERT-baseより優れた性能を示し、統合アーキテクチャが単体の各コンponentよりも効果的であることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。