[論文レビュー] Learning to Answer by Learning to Ask: Getting the Best of GPT-2 and BERT Worlds
本論文は、質問生成のためのGPT-2と質問回答のためのBERTを組み合わせた協調的なエンドツーエンドのフレームワークを提案し、QAとQGを改善する。SQuADで半教師ありの利得を示す。
Automatic question generation aims at the generation of questions from a context, with the corresponding answers being sub-spans of the given passage. Whereas, most of the methods mostly rely on heuristic rules to generate questions, more recently also neural network approaches have been proposed. In this work, we propose a variant of the self-attention Transformer network architectures model to generate meaningful and diverse questions. To this end, we propose an easy to use model consisting of the conjunction of the Transformer decoder GPT-2 model with Transformer encoder BERT for the downstream task for question answering. The model is trained in an end-to-end fashion, where the language model is trained to produce a question-answer-aware input representation that facilitates to generate an answer focused question. Our result of neural question generation from text on the SQuAD 1.1 dataset suggests that our method can produce semantically correct and diverse questions. Additionally, we assessed the performance of our proposed method for the downstream task of question answering. The analysis shows that our proposed generation & answering collaboration framework relatively improves both tasks and is particularly powerful in the semi-supervised setup. The results further suggest a robust and comparably lean pipeline facilitating question generation in the small-data regime.
研究の動機と目的
- 自動質問生成(QG)を動機づけ、質問応答(QA)を支援・改善する。
- GPT-2(生成)とBERT(判別型QA)の補完的な強みを活用して、共同のQG-QAループを作成する。
- QAのフィードバックを用いてQGの生成品質を改善する半教師あり学習を可能にする。
- QG品質を評価するための辞書的類似性指標を超える代替指標としてQAを提案する。
- SQuAD 1.1でアプローチの頑健性とデータ効率を実証する。
提案手法
- 文脈と注釈付き回答を条件として回答を区切る特別なトークンを用いてEq. 2およびSection 2.2で説明される条件付けを用い、GPT-2をQG生成にファインチューニングする。
- 文脈と質問を与えた場合に回答スパンを予測するようBERTをQA用にファインチューニングし、QAフィードバックモジュールとして機能させる(Section 2.3)。
- GPT-2が質問を生成し、QAを介してフィードバックを受け取るエンドツーエンドの協調ループを作成する。生成品質を向上させるために、BERTを介したバックプロパゲーションは行わず、GPT-2のパラメータのみをバックプロパゲートする(Section 2.3)。
- データをX_a(答えられる)とX_-a(答えられない)セットに分け、トレーニングを安定化させるためにX_-aを徐々に縮小しX_aをリプレイする(Section 2.3)。
- 生成された質問に対するQAの性能をQG品質の代替指標として用い、BLEU/ROUGE指標を補完する(Section 3.2)。
- GPT-2をQG、BERTをQAとしてSQuAD v1.1で事前学習を行い、その後、監視付き前学習と、ラベリング率を変えて行う半教師あり評価を実施する(Section 3)。
実験結果
リサーチクエスチョン
- RQ1GPT-2ベースのQGモデルは、QAシステム(BERT)から提供されるフィードバック信号を活用して、質問の多様性と適切性を改善できるか。
- RQ2協調的なQG-QAフレームワークはQA性能を向上させ、低ラベリング状況で効果的な半教師あり学習を実現できるか。
- RQ3生成された質問に対するQA性能は、辞書的類似性を超えたQG品質の有効な代替指標となるか。
- RQ4QAモジュールの選択(BERT対GPT-2風QAヘッド)は、QGフィードバックループの有効性に影響を与えるか。
主な発見
- 提案されたGPT-2/BERT協調は、生成した質問のBLEU/ROUGEスコアをベースラインより高くする一方で、SQuAD 1.1でのQA性能も競争力を持つ。
- BERTフィードバックループを用いて生成質問でトレーニングされたQA性能は、真のQAベンチマークに近づき、単なるGPT-2生成に依存するベースラインを大きく上回る。
- 半教師あり設定では、ラベリング率(10%、20%、50%、90%)を通じて本法が従来の半教師ありQA手法を上回り、特に高いラベリング率で差が大きい。
- 文脈依存の双方向埋め込みのため、GPT-2 QAヘッドを用いるよりも、BERTをQAフィードバックモジュールとして使用したほうが、QGに対してより強力な指針と多様性を提供する。
- QAベースの代替評価は、Ground-truthとの辞書的類似性が低い場合でも、生成質問がQAの頑健性と一般化を向上させることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。