QUICK REVIEW

[论文解读] Domain adaptive training BERT for response selection

Taesun Whang, Dongyub Lee|arXiv (Cornell University)|Aug 13, 2019

Topic Modeling参考文献 14被引用 29

一句话总结

本文提出对 BERT 进行领域自适应微调，以提升检索式对话系统中多轮响应选择的性能。通过在领域特定语料（如 Ubuntu Corpus 和 Advising Corpus）上进行后训练，模型学习到领域特定的上下文表征，进而在两个基准数据集上实现 SOTA 性能，Recall@1 分别提升 5.9% 和 6%。

ABSTRACT

We focus on multi-turn response selection in a retrieval-based dialog system. In this paper, we utilize the powerful pre-trained language model Bi-directional Encoder Representations from Transformer (BERT) for a multi-turn dialog system and propose a highly effective post-training method on domain-specific corpus. Although BERT is easily adopted to various NLP tasks and outperforms previous baselines of each task, it still has limitations if a task corpus is too focused on a certain domain. Post-training on domain-specific corpus (e.g., Ubuntu Corpus) helps the model to train contextualized representations and words that do not appear in general corpus (e.g.,English Wikipedia). Experiment results show that our approach achieves new state-of-the-art on two response selection benchmark datasets (i.e.,Ubuntu Corpus V1, Advising Corpus) performance improvement by 5.9% and 6% on Recall@1.

研究动机与目标

解决通用领域预训练 BERT 在处理领域特定对话语料时的局限性。
提升多轮对话系统中响应选择的性能，其中领域特定词汇和上下文至关重要。
提出一种后训练策略，使 BERT 适应领域特定的语言模式，而无需从头开始训练。
通过领域自适应微调，在标准响应选择基准上实现 SOTA 结果。

提出的方法

在领域特定对话语料（如 Ubuntu Corpus 和 Advising Corpus）上对 BERT 进行后训练（持续预训练）。
使用对比学习目标，在响应选择任务上对领域自适应的 BERT 模型进行微调。
在领域特定的后训练过程中，使用掩码语言建模和下一句预测目标。
利用 BERT 的双向注意力机制，学习多轮对话历史和候选响应的上下文表征。
保留预训练 BERT 的架构，同时使其适应领域特定的词汇和短语模式。
在领域特定数据上进行训练，以提升在通用语料（如英文维基百科）中缺失的罕见或领域特定词元的表征能力。

实验结果

研究问题

RQ1在领域特定对话语料上对 BERT 进行后训练，能否提升多轮对话系统中的响应选择性能？
RQ2与在通用领域预训练 BERT 上的标准微调相比，领域自适应微调在响应选择任务上的表现如何？
RQ3领域特定的后训练在多大程度上增强了模型捕捉上下文和领域特定术语的能力？
RQ4领域适应是否在标准响应选择基准上带来可测量的性能提升？

主要发现

所提出的领域自适应训练方法在 Ubuntu Corpus V1 基准上实现了 Recall@1 5.9% 的相对提升。
在 Advising Corpus 上实现了 6% 的 Recall@1 相对提升，表明在不同领域中均具有一致的性能增益。
该模型优于先前的 SOTA 方法，证实了领域特定后训练的有效性。
领域自适应微调使 BERT 更好地捕捉到通用领域预训练数据中不存在的领域特定语言模式和罕见词元。
即使领域特定语料比通用领域语料更小，该方法依然有效，凸显其样本效率。
性能增益归因于对领域特定词汇和对话结构的上下文表征能力的提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。