[论文解读] Generating High-Quality and Informative Conversation Responses with Sequence-to-Sequence Models
本文提出了一种凝视模型训练方法和基于片段的随机束搜索解码方法,以提升序列到序列对话模型在长序列、连贯且多样响应生成方面的表现。通过在固定长度的目标片段上进行训练,并通过重排序提前注入多样性,该方法生成的响应显著更长、质量更高,相较于基线模型,人类评估显示其可接受度和优秀率更高,尤其在长输出场景下表现更优,即使未采用显式的长度正则化。
Sequence-to-sequence models have been applied to the conversation response generation problem where the source sequence is the conversation history and the target sequence is the response. Unlike translation, conversation responding is inherently creative. The generation of long, informative, coherent, and diverse responses remains a hard task. In this work, we focus on the single turn setting. We add self-attention to the decoder to maintain coherence in longer responses, and we propose a practical approach, called the glimpse-model, for scaling to large datasets. We introduce a stochastic beam-search algorithm with segment-by-segment reranking which lets us inject diversity earlier in the generation process. We trained on a combined data set of over 2.3B conversation messages mined from the web. In human evaluation studies, our method produces longer responses overall, with a higher proportion rated as acceptable and excellent as length increases, compared to baseline sequence-to-sequence models with explicit length-promotion. A back-off strategy produces better responses overall, in the full spectrum of lengths.
研究动机与目标
- 为解决神经对话模型在生成长序列、连贯且多样响应时面临的挑战,此类模型常产生简短、通用或重复的回复。
- 在不损害训练效率或响应质量的前提下,将序列到序列模型扩展至大规模对话数据集(超过23亿条消息)。
- 通过修改解码过程,更早地注入多样性,以提升响应的多样性和连贯性。
- 开发一种回退策略,结合多样化的长序列生成与稳健的短响应生成优势,以实现整体性能最优化。
提出的方法
- 提出凝视模型,通过在目标序列的固定长度片段上进行训练,实现大规模数据集的高效扩展。
- 在解码器中使用自注意力机制,以在生成长序列响应时保持连贯性。
- 提出一种分段进行的随机束搜索解码方法,并结合重排序,以更早地在生成过程中注入多样性。
- 采用一种回退策略:当响应长度小于40个字符时,回退至标准束搜索(不使用长度归一化),从而结合两种方法的优势。
- 利用大规模网络挖掘的对话数据(23亿条消息)进行训练,使模型能够泛化至多样的对话模式。
- 在基线中应用长度归一化以确保公平比较,尽管所提方法无需显式的长度促进目标。
实验结果
研究问题
- RQ1固定长度目标训练(凝视模型)是否能在保持或提升响应质量的同时,实现对超大规模对话数据集的高效扩展?
- RQ2与使用长度归一化的标准束搜索相比,分段进行的随机束搜索结合重排序是否能提升生成响应的多样性和连贯性?
- RQ3一种结合多样化长序列生成与稳健短响应生成的回退策略,是否能实现优于单一方法的整体响应质量?
- RQ4响应长度如何影响人类对质量的感知?所提方法是否能在基线模型失效的长长度下仍保持高质量评分?
主要发现
- 所提方法生成的响应平均长度显著更长,其中三分之一的响应超过100个字符,而基线模型中该比例可忽略不计。
- 人类评估显示,所提方法在响应长度增加时,可接受和优秀的响应比例保持稳定或上升,而基线模型则急剧下降。
- 结合两种方法的回退策略,产生的优秀、良好、可接受和一般评分比例高于任一方法单独使用,且差评比例更低。
- 在成对的人类偏好测试中,组合模型在180组响应对中被偏好103次,表明其性能具有统计显著性提升。
- 尽管仅在10个token的目标片段上进行训练,凝视模型在早期训练阶段的表现已优于基线,表明目标侧注意力机制带来了更好的泛化能力。
- 该方法在未使用显式长度促进目标的情况下,仍能生成更高质量的响应,证明改进的解码策略和训练策略可弥补缺乏此类正则化的影响。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。