QUICK REVIEW

[论文解读] Discourse-Based Objectives for Fast Unsupervised Sentence Representation Learning

Yacine Jernite, Samuel R. Bowman|arXiv (Cornell University)|Apr 23, 2017

Topic Modeling参考文献 27被引用 111

一句话总结

论文提出三种快速、纯判别式的基于话语的目标，用于从未标记文本中预训练句子编码器，在显著减少训练时间的情况下实现具竞争力的外部任务性能。

ABSTRACT

This work presents a novel objective function for the unsupervised training of neural network sentence encoders. It exploits signals from paragraph-level discourse coherence to train these models to understand text. Our objective is purely discriminative, allowing us to train models many times faster than was possible under prior methods, and it yields models which perform well in extrinsic evaluations.

研究动机与目标

激发并实现使用话语连贯性信号来快速无监督预训练句子编码器。
提出三种利用段落级话语关系的判别目标。
证明联合多任务训练可以提升表示质量。
在标准文本分类基准上评估学习到的表示，以展示竞争力的性能和速度。

提出的方法

定义三种快速的基于连贯性的预训练任务：相邻句子的二元排序、从一个段落中选取下一句、基于起始连词的并列连词预测。
将共享的句子编码器（CBOW、GRU、BiGRU，配合 FastText 嵌入）与三个双线性分类器共同训练。
对 BiGRU 使用 AdaGrad 配合子采样，在8小时窗口内对多任务进行优化。
对比单任务与多任务训练，并评估内部和外部性能。
在学习到的表示空间中提供定性最近邻分析。

实验结果

研究问题

RQ1快速判别目标能否捕捉到用于无监督句子表示学习的话语连贯性信号？
RQ2使用三个基于话语的目标进行多任务训练，是否比单任务设置提升编码器质量？
RQ3在这些目标下，不同的编码器结构（CBOW、GRU、BiGRU）在速度与性能方面的比较如何？
RQ4学到的表示在标准句子分类任务上的外部任务性能如何？
RQ5DiscSent 表示在速度和准确性方面与现有的无监督预训练方法（如 Skip Thought、SDAE）相比如何？

主要发现

模型	时间	MSRP	TREC	SUBJ
FastSent 1	≈13h	72.2	76.8	88.7
FastSent+AE 1	71.2	80.4	88.8
SDAE 1	192h	76.4	77.6	89.3
SDAE+embed 1	73.7	78.4	90.8
SkipT biGRU 2	336h	71.2	89.4	92.5
SkipT GRU 2	73.0	91.4	92.1
SkipT+feats 2	75.8	92.2	93.6
Ordering model 3	48h	72.3	–	–
Ordering+embed 3	74.0	–	–	–
+embed+SkipT 3	74.9	–	–	–
DiscSent biGRU	8h	71.6	81.0	88.6
DiscSent+unigram	72.5	87.9	92.7
DiscSent+embed	75.0	87.2	93.0

使用三种基于话语的目标进行的联合训练在内部任务上表现优于单任务训练。
BiGRU 模型在内部任务上优于 CBOW 和 GRU，DiscSent 在外部任务上取得具有竞争力的结果。
DiscSent 基于的表示在 MSRP、TREC、SUBJ 上达到或超过若干基线，同时需要更少的训练时间。
具有 unigram 或嵌入增广的 DiscSent 变体进一步提升下游任务性能。
该方法在数小时内完成训练，而非数日或数周，使无监督预训练具有可扩展性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。