[論文レビュー] Answer-based Adversarial Training for Generating Clarification Questions
本論文は、質問生成器が明確化質問を作成し、疑似回答生成器を用いたユーティリティベースの判別器が有用性を判断するGAN風の対敵フレームワークを提案し、ベースラインよりも特異性と有用性を向上させる。
We present an approach for generating clarification questions with the goal of eliciting new information that would make the given textual context more complete. We propose that modeling hypothetical answers (to clarification questions) as latent variables can guide our approach into generating more useful clarification questions. We develop a Generative Adversarial Network (GAN) where the generator is a sequence-to-sequence model and the discriminator is a utility function that models the value of updating the context with the answer to the clarification question. We evaluate on two datasets, using both automatic metrics and human judgments of usefulness, specificity and relevance, showing that our approach outperforms both a retrieval-based model and ablations that exclude the utility model and the adversarial training.
研究の動機と目的
- given context の情報ギャップを埋める自動的な明確化質問の生成を動機づける。
- 仮想的な回答を潜在変数として活用し、より有益な質問へと生成を導く。
- 生成器と判別器の設定を開発し、質問に対する回答で文脈を更新した際の有用性を判別器が見積もる。
- 自動メトリクスと人間評価の両方を用いて、実世界データセット(Amazonの商品説明とStack Exchangeの投稿)で評価する。
提案手法
- 与えられた文脈から質問を生成するために、注意機構付きの系列間エンコーダ・デコーダを用いる。
- 別の回答生成器を用いて質問に対する仮想的な回答を生成する。
- 生成器の報酬として、(文脈, 質問, 回答) の組の有用性を推定するユーティリティ計算機を訓練する。
- ユーティリティ報酬を最大化するためのMixerベースの強化学習目的を採用し、最大尤度でウォームアップする。
- ユーティリティ計算機をGAN設定の判別器として再解釈し、生成器とユーティリティ判別器をミニマックス枠組みで訓練する。
- 生成器と回答生成器を事前訓練し、対向目的の下で共同訓練する;分散削減のため自己批判的ベースラインを使用する。
実験結果
リサーチクエスチョン
- RQ1生成モデルは検索ベースラインを上回るか。
- RQ2ユーティリティ報酬の最適化は最大尤度訓練より改善されるか。
- RQ3対向訓練はユーティリティのみの強化学習よりさらに改善するか。
- RQ4生成された質問は人間の判断に照らしてより有用性と特異性を示すか。
主な発見
| モデル | 多様性(Amazon) | BLEU(Amazon) | METEOR(Amazon) | 多様性(StackExchange) | BLEU(StackExchange) | METEOR(StackExchange) |
|---|---|---|---|---|---|---|
| Reference | — | — | — | — | — | — |
| Lucene | 0.6289 | 4.26 | 10.85 | 0.7453 | 1.63 | 7.96 |
| MLE | 0.1059 | 17.02 | 12.72 | 0.2183 | 3.49 | 8.49 |
| Max-Utility | 0.1214 | 16.77 | 12.69 | 0.2508 | 3.89 | 8.79 |
| GAN-Utility | 0.1296 | 15.20 | 12.82 | 0.2256 | 4.26 | 8.99 |
- GAN-Utility はAmazonデータセットにおける多様性でアブレーションおよびベースラインを上回る。
- GAN-Utility は他のモデルより人間の判断での有用性と特異性が高い。
- Stack Exchange では GAN-Utility が Bleu と Meteor でベースラインを上回り、多様性も高い。
- Max-Utility は一部ケースで多様性が高いが文法性が低くなる傾向;GAN-Utility は品質と特異性のバランスをとる。
- 総じて、対向訓練はMLEおよびユーティリティのみのアプローチと比べて、より有用で文脈に特化した明確化質問を生み出す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。