QUICK REVIEW

[論文レビュー] Bootstrapping a Data-Set and Model for Question-Answering in Portuguese (Short Paper)

Amalou, Abderaouf N, Fromont, Elisa|arXiv (Cornell University)|Jan 9, 2019

Topic Modeling参考文献 60被引用数 593

ひとこと要約

Transformer-XL は、セグメントレベルの再帰と相対的位置エンコーディングを組み合わせることで、長距離の順序モデリングを可能にする新規アーキテクチャを導入し、注意機構が RNN より 80% 長く、ヴァニラ Transformer より 450% 長い依存関係を捉えることができる。同時に、最大 1,800 倍の高速な推論を実現し、言語モデリングで最先端の結果を達成した。

ABSTRACT

Question answering systems are mainly concerned with fulfilling an information query written in natural language, given a collection of documents with relevant information. They are key elements in many popular application systems as personal assistants, chat-bots, or even FAQ-based online support systems. This paper describes an exploratory work carried out to come up with a state-of-the-art model for question-answering tasks, for the Portuguese language, based on deep neural networks. We also describe the automatic construction of a data-set for training and testing the model. The final model is not trained in any specific topic or context, and is able to handle generic documents, achieving 50% accuracy in the testing data-set. While the results are not exceptional, this work can support further development in the area, as both the data-set and model are publicly available.

研究の動機と目的

標準的な Transformer や RNN における固定長のコンテキストという制限を解消し、長期依存関係のモデリングを可能にする。
固定長のセグメントに分けて学習することで生じるコンテキスト断片化問題を解消する。
時間的整合性を損なわせることなく、セグメント間を効果的に情報伝達を可能にする。
言語モデリングタスクにおいて、短いシーケンスと長いシーケンスの両方で性能を向上させる。
多様な言語モデリングベンチマークで高速な推論とより良い一般化性能を達成する。

提案手法

以前のセグメントからの隠れ状態をメモリとして再利用することで、セグメントレベルの再帰を導入する。
学習時に見た長さよりも長い注意長に一般化できる相対的位置エンコーディング方式を提案する。
絶対的位置エンコーディングを相対的エンコーディングに置き換えることで、メモリの再利用時に時間的整合性を維持する。
固定長のコンテキスト窓を持つメモリアーギュメント付きの Transformer デコーダーを用い、再帰によって複数のセグメントにまたがるコンテキストを可能にする。
同じ自己注意機構をセグメント間で適用することで、直近のセグメントを超えたトークンに注目できるようにする。
セグメント化されたデータ上でエンドツーエンドに学習するが、メモリ再利用と相対的位置エンコーディングにより長距離モデリングを実現する。

実験結果

リサーチクエスチョン

RQ1自己注意モデルは、RNN やヴァニラ Transformer が捉えるよりも長い依存関係を学習できるか？
RQ2メモリ再利用を伴うセグメントレベルの再帰は、時間的整合性を損なわせることなく長コンテキストモデリングを改善できるか？
RQ3相対的位置エンコーディングは、学習時のコンテキスト長よりも長いシーケンスに対して効果的な注意を可能にするか？
RQ4Transformer-XL は、短いシーケンスと長いシーケンスの両方の言語モデリングベンチマークでどのように性能を発揮するか？
RQ5微調整なしで、モデルは一貫性があり、長大なテキストを生成できるか？

主な発見

微調整なしで、enwiki8 ではテストパープレキシティ 0.99、text8 では 1.08、WikiText-103 では 18.3、One Billion Word では 21.8、Penn Treebank では 54.5 を達成した。
モデルは RNN より 80% 長く、ヴァニラ Transformer より 450% 長い依存関係を捉えている。
評価時、効率的なメモリ再利用のおかげで、ヴァニラ Transformer より最大 1,800 倍の高速な推論が可能である。
WikiText-103 の 1億トークンのみで学習したモデルは、数千トークンにわたる一貫性のある新規テキストを生成できる。
1,000トークンのサンプルからなる WikiText-103 テストセットにおいて、トピックの一貫性と時間的整合性を維持していることが示された。
相対的位置エンコーディングは、安定したメモリ再利用を可能にし、長大なシーケンスにおける時間的混乱を防ぐために不可欠である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。