[论文解读] DisSent: Sentence Representation Learning from Explicit Discourse Relations
DisSent 通过预测句子对之间的显式话语标记来学习句子嵌入,使用来自 BookCorpus 的自动整理数据和依存句法分析来训练 BiLSTM 编码器并对 BERT 进行微调,在迁移性能和 PDTB 隐式关系预测上达到最先进的结果。
Learning effective representations of sentences is one of the core missions of natural language understanding. Existing models either train on a vast amount of text, or require costly, manually curated sentence relation datasets. We show that with dependency parsing and rule-based rubrics, we can curate a high quality sentence relation task by leveraging explicit discourse relations. We show that our curated dataset provides an excellent signal for learning vector representations of sentence meaning, representing relations that can only be determined when the meanings of two sentences are combined. We demonstrate that the automatically curated corpus allows a bidirectional LSTM sentence encoder to yield high quality sentence embeddings and can serve as a supervised fine-tuning dataset for larger models such as BERT. Our fixed sentence embeddings achieve high performance on a variety of transfer tasks, including SentEval, and we achieve state-of-the-art results on Penn Discourse Treebank's implicit relation prediction task.
研究动机与目标
- 通过显式话语关系作为结构化语义信号,激励学习通用的句子表示。
- 通过依存解析自动整理一个由显式话语标记连接的海量高质量句子对数据集。
- 训练一个句子编码器以生成支持话语标记预测的嵌入,促进语义感知的表示。
- 在 DisSent 任务上对更大的模型(如 BERT)进行微调,以提升下游话语分类任务的性能。
- 在 SentEval 和 PDTB 任务上评估嵌入,与最先进的有监督和无监督方法进行比较。
提出的方法
- 将 BiLSTM 句子编码器适配为具有时序最大池化,以产生固定大小的句子向量。
- 使用减法、乘法和平均值对句子嵌入进行成对交互,然后与句子嵌入拼接。
- 通过全连接层对合并特征进行投影,并通过 softmax 预测话语标记。
- 使用基于依存分析的管道、带有预定义依存模式的方式,自动提取由显式话语标记连接的句子对。
- 通过对 DisSent 任务使用 [CLS] 表示来微调 BERT-base,并在下游任务上进行评估。
- 探索多种话语标记子集(ALL、Books 5、Books 8),以评估泛化能力和数据规模的影响。
实验结果
研究问题
- RQ1自动化的话语标记预测是否能为学习可迁移的句子嵌入提供强有力的监督信号?
- RQ2在标准评测基准上,DisSent 嵌入与现有的有监督和无监督句子表示相比如何?
- RQ3在 DisSent 数据上对大型预训练模型(如 BERT)进行微调是否能提升与话语相关的分类任务?
- RQ4使用不同的话语标记集合对表示质量和泛化能力有多大影响?
- RQ5显式话语关系监督在句子意义学习方面是否具备与隐式关系及其他训练信号的竞争力或互补性?
主要发现
- 当用作固定嵌入时,DisSent 嵌入能够提供高质量的句子表示,在 SentEval 上表现良好。
- 在 DisSent 上对 BERT 进行微调,相较于其他微调策略,在 PDTB 隐式关系预测中达到最先进的结果。
- 经过 DisSent 训练的模型在若干泛化任务上优于 InferSent 和 SkipThought,尤其在 TREC(问题类型分类)和隐式关系任务上。
- 使用 DisSent 进行训练相比某些先前的有监督方法,在数据收集和训练速度方面具有优势,同时在泛化性能方面保持竞争力。
- 将话语标记预测作为训练任务提供了有用的监督,捕捉句子整合的语义,使下游分类在不依赖大规模人工标注的情况下也能有效。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。