[論文レビュー] Hierarchical Learning for Generation with Long Source Sequences
この論文はHAT(Hierarchical Attention Transformer)を提案します。階層的な注意機構に基づく seq2seq モデルで長いソース系列を処理し、生成タスクを改善します。複数の要約データセットで ROUGE の最先端を達成し、文書レベルの翻訳でも改善をもたらします。さらに階層的注意の分析を行い、エンコーダのみの事前学習を検討します。
One of the challenges for current sequence to sequence (seq2seq) models is processing long sequences, such as those in summarization and document level machine translation tasks. These tasks require the model to reason at the token level as well as the sentence and paragraph level. We design and study a new Hierarchical Attention Transformer-based architecture (HAT) that outperforms standard Transformers on several sequence to sequence tasks. Furthermore, our model achieves state-of-the-art ROUGE scores on four summarization tasks, including PubMed, arXiv, CNN/DM, SAMSum, and AMI. Our model outperforms document-level machine translation baseline on the WMT20 English to German translation task. We investigate what the hierarchical layers learn by visualizing the hierarchical encoder-decoder attention. Finally, we study hierarchical learning on encoder-only pre-training and analyze its performance on classification tasks.
研究の動機と目的
- 長いソース系列を処理する際の seq2seq タスク(要約と文書レベル翻訳)における課題を動機づけ、対処する。
- 階層的エンコーダ層を追加して文レベルの表現を構築するHierarchical Attention Transformer(HAT)を提案する。
- 長い系列の要約 benchmarks および文書レベル MT で最先端の性能を示す。
- 階層的注意が学習する内容を分析し、分類タスクのためのエンコーダ専用階層的事前学習を探る。
提案手法
- Sentence レベルの BOS トークンを参照して文レベルの階層的注意を構築するため、階層的エンコーダを用いて Transformer を拡張する。
- 前処理時に文の開始時に BOS トークンを挿入し、文レベルの階層的注意を可能にする。
- デコーダ側の注意をトークンレベルのエンコーダ出力と BOS ベースの文表現の双方に追加する。
- 階層的でない部分には BART ウェイトで事前学習を行い、階層的コンポーネントはランダムに初期化する;長い系列生成タスクでファインチューニングする。
- 長い系列の要約(PubMed, arXiv, CNN/DM, XSum, SAMSum, AMI, ISCI)および文書レベル MT(WMT20 En-De, En-Cs, TED17 Zh-En)で評価する。
- エンコーダのみの階層的事前学習を行い、SQuAD 2.0、MNLI-m、RACE で評価する。
実験結果
リサーチクエスチョン
- RQ1階層的注意は、ソース系列が長い場合(文書や複数文の入力)に生成を改善できるか。
- RQ2階層的エンコーダはデコーダの注意と生成品質にどのような影響を与えるか。
- RQ3エンコーダ専用の階層的事前学習は、長い入力を扱う分類タスクに有益か。
- RQ4階層的なエンコーダ-デコーダの注意パターンを可視化することで、どんな洞察が得られるか。
主な発見
| データセット | R1 | R2 | RL | データセット | R1 | R2 | RL | |
|---|---|---|---|---|---|---|---|---|
| PubMed | 45.97 | 20.15 | 41.34 | XSum | 47.60 | 24.83 | 39.64 | |
| arXiv | 46.32 | 20.65 | 42.33 | CNN/DM | 46.54 | 18.82 | 42.00 | |
| Transformer-BART | 48.35 | 21.43 | 36.90 | HAT-BART | 46.68 | 19.07 | 42.17 | |
| HAT-BART | 48.36 | 21.43 | 37.00 | - | - | - | - |
- 階層的モデルは PubMed および arXiv 要約データセットで ROUGE の最先端を達成した。
- HAT-BART は CNN/DailyMail および XSum の要約タスクで平易な seq2seq ベースラインを上回る。
- SAMSum および AMI/ISCI では、HAT 系列がベースラインと比較して競争力のあるまたは改善された ROUGE スコアを示す。
- 文書レベル翻訳(WMT20 En-De)では階層モデルが平易なモデルを上回るが、En-Cs および Zh-En では利得が明確でない場合がある。
- エンコーダのみの階層的事前学習は収束を速め、RACE で改善を示す一方、SQuAD 2.0 および MNLI-m では混在した結果となる。
- 階層的注意は、異なる深さで文レベル BOS 埋め込みに対して多様で層ごとの焦点を示し、異なる深さで有用な文レベル表現を持つことを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。