[论文解读] Answer-based Adversarial Training for Generating Clarification Questions
论文提出一个受 GAN 启发的对抗框架,其中问题生成器创造澄清性问题,基于效用的鉴别器(配合一个模拟的回答生成器)来判断有用性,在特异性和有用性方面优于基线。
We present an approach for generating clarification questions with the goal of eliciting new information that would make the given textual context more complete. We propose that modeling hypothetical answers (to clarification questions) as latent variables can guide our approach into generating more useful clarification questions. We develop a Generative Adversarial Network (GAN) where the generator is a sequence-to-sequence model and the discriminator is a utility function that models the value of updating the context with the answer to the clarification question. We evaluate on two datasets, using both automatic metrics and human judgments of usefulness, specificity and relevance, showing that our approach outperforms both a retrieval-based model and ablations that exclude the utility model and the adversarial training.
研究动机与目标
- 自动生成澄清性问题以弥补给定上下文中的信息空缺。
- 将假设答案作为潜变量引导生成更具信息量的问题。
- 开发一个生成器-鉴别器框架,其中鉴别器估计用一个答案更新上下文的效用作为生成器的奖励。
- 在真实世界数据集(亚马逊产品描述和 Stack Exchange 帖子)上进行评估,结合自动指标与人工判断。
提出的方法
- 使用带注意力的序列到序列编码器-解码器从给定上下文生成问题。
- 使用一个独立的答案生成器生成对问题的假设性答案。
- 训练效用计算器以估计(上下文、问题、答案)三元组的有用性,作为对生成器的奖励。
- 采用基于混合强化学习的目标来优化效用奖励(在最大似然的预热阶段)。
- 将效用计算器重新解释为 GAN 设置中的判别器,并在极小极大框架下训练生成器和效用判别器。
- 预训练生成器和答案生成器;在对抗目标下联合训练;使用自我批判基线以降低方差。
实验结果
研究问题
- RQ1生成模型在多大程度上优于检索基线?
- RQ2优化效用奖励是否相比最大似然训练有改善?
- RQ3对抗性训练是否在效用驱动强化学习之上进一步提高?
- RQ4生成的问题在人工判断中是否表现出更高的有用性和特异性?
主要发现
| 模型 | 多样性(Amazon) | Bleu(Amazon) | Meteor(Amazon) | 多样性(StackExchange) | Bleu(StackExchange) | Meteor(StackExchange) |
|---|---|---|---|---|---|---|
| Reference | — | — | — | — | — | — |
| Lucene | 0.6289 | 4.26 | 10.85 | 0.7453 | 1.63 | 7.96 |
| MLE | 0.1059 | 17.02 | 12.72 | 0.2183 | 3.49 | 8.49 |
| Max-Utility | 0.1214 | 16.77 | 12.69 | 0.2508 | 3.89 | 8.79 |
| GAN-Utility | 0.1296 | 15.20 | 12.82 | 0.2256 | 4.26 | 8.99 |
- GAN-Utility 在亚马逊数据集的多样性方面优于消融与基线。
- GAN-Utility 在亚马逊数据集上的有用性与特异性评估中相比其他模型表现更强。
- 在 Stack Exchange 上,GAN-Utility 在 Bleu 与 Meteor 指标上优于基线,并表现出更高的多样性。
- Max-Utility 在某些情况下带来更高的多样性但句法性较低;GAN-Utility 在质量与特异性之间取得平衡。
- 总体而言,与MLE和仅效用的强化学习相比,对抗性训练产出更有用且更具上下文特异性的澄清性问题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。