QUICK REVIEW

[论文解读] Generating Informative and Diverse Conversational Responses via Adversarial Information Maximization

Yizhe Zhang, Michel Galley|arXiv (Cornell University)|Sep 16, 2018

Adversarial Robustness in Machine Learning被引用 181

一句话总结

该论文提出 AIM，一种对抗学习框架，联合提升回应多样性并最大化互信息，以增强神经对话模型的信息量。

ABSTRACT

Responses generated by neural conversational models tend to lack informativeness and diversity. We present Adversarial Information Maximization (AIM), an adversarial learning strategy that addresses these two related but distinct problems. To foster response diversity, we leverage adversarial training that allows distributional matching of synthetic and real responses. To improve informativeness, our framework explicitly optimizes a variational lower bound on pairwise mutual information between query and response. Empirical results from automatic and human evaluations demonstrate that our methods significantly boost informativeness and diversity.

研究动机与目标

解决神经响应的乏味和信息量不足的问题。
将信息量与多样性区分开来并同时提升二者。
利用对抗性训练使回应分布与人类数据相匹配。
在训练过程中显式最大化查询与回应之间的互信息。
使用基于结构化嵌入的判别器和双学习来稳定训练。

提出的方法

使用前向生成器 p_theta(T|S) 和基于嵌入的判别器 D_psi 来区分真实回应与合成回应。
向 CNN-LSTM 生成器注入噪声 Z 以促进多样性，使用 soft-argmax 以实现可微梯度。
采用反向模型 q_phi(S|T) 以对互信息 I_p_e(S,T) 构成变分下界。
优化联合 AIM 目标 L_AIM = L_GAN + lambda * L_MI，其中 L_MI 是变分互信息下界。
应用双对抗目标 (DAIM) 以联合训练前向和后向模型并共享判别器。
对 MI 项使用类似确定性策略梯度的梯度以降低梯度方差（也可使用 REINFORCE 作为替代）。
通过受 VIMO 启发的变分下界，使编码器联合分布 p^e(S,T) 与 oracle 分布一致。

实验结果

研究问题

RQ1对抗性训练是否能在不牺牲相关性的前提下提升对话回应的多样性？
RQ2是否显式最大化变分互信息下界能提升生成回应的信息量？
RQ3双向前向与后向目标是否能稳定训练并同时提升多样性和信息量？
RQ4基于嵌入的判别器与二元分类器在引导文本生成方面有何差异？
RQ5在社交媒体数据集（Reddit、Twitter）上，与 MMI 及基线相比，在信息量和多样性方面有哪些实证提升？

主要发现

AIM 在 Reddit 和 Twitter 数据集上相较于基线 seq2seq 和 cGAN 模型提升了信息量和多样性。
MI 目标通过奖励与源相关的内容、惩罚通用输出来生成更有信息量的回应。
双向目标（DAIM）相对于 AIM 进一步提升多样性并保持信息量。
人工评估表明 DAIM 在信息量方面优于 MMI，相关性相当；自动指标显示多样性提高。
使用基于嵌入的判别器和降低方差的梯度方法训练使学习更稳定，并实现更好的分布对齐。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。