[论文解读] Unsupervised Paraphrase Generation using Pre-trained Language Models
该论文提出了一种无监督的同义句生成方法,通过在带损坏输入的句子重构任务上对 GPT-2 进行微调,获得高质量且多样的改写,在用于数据增强时能改善下游分类性能。
Large scale Pre-trained Language Models have proven to be very powerful approach in various Natural language tasks. OpenAI's GPT-2 \cite{radford2019language} is notable for its capability to generate fluent, well formulated, grammatically consistent text and for phrase completions. In this paper we leverage this generation capability of GPT-2 to generate paraphrases without any supervision from labelled data. We examine how the results compare with other supervised and unsupervised approaches and the effect of using paraphrases for data augmentation on downstream tasks such as classification. Our experiments show that paraphrases generated with our model are of good quality, are diverse and improves the downstream task performance when used for data augmentation.
研究动机与目标
- 证明大型预训练语言模型在没有标注数据的情况下也能生成高质量的改写。
- 证明从被损坏的输入重构句子可以以无监督的方式训练改写生成。
- 评估改写的质量、多样性以及在下游任务中的数据增强用途。
提出的方法
- 在句子重构任务上对 GPT-2 进行微调,其中来源是被损坏的句子 S(去停用词,20% 的单词乱序,20% 的同义词替换),目标是原始句子 T。
- 在训练时,将源句和目标句用 [SEP] 标记拼接,形成 GPT-2 的输入 X。
- 使用 top-k 采样(k=10)为每个输入生成多条改写。
- 使用 Sentence Transformers 以余弦相似度阈值 0.75 将改写按与输入的语义相似性进行筛选。
- 利用 METEOR 和 ROUGE-L 评估质量;用 self-BLEU 评估多样性;通过在 SST-2 和 TREC 任务上的数据增强来评估有效性。
实验结果
研究问题
- RQ1在没有标注改写数据的情况下,基于无监督 GPT-2 的改写是否能产生高质量的改写?
- RQ2通过这种方法产生的改写在用于数据增强时是否能提升下游分类性能?
- RQ3生成的改写是否多样化且在语义上忠实于原文?
- RQ4无监督方法与有监督及其他无监督改写方法相比如何?
主要发现
- 改写质量很高,METEOR 在报道的结果中超越了若干有监督模型。
- 该方法产生多样化的改写,候选之间的自我 BLEU 分数较低所指示。
- 在作为数据增强用于下游的 SST-2 和 TREC 分类任务时,改写带来可测量的改进。
- 人工评估显示改写的正确性平均为 75.5% 的准确率。
- 与无监督基线相比,所提出的方法在 ROUGE-1 和 ROUGE-2 分数上具有竞争力,在 METEOR 分数上表现优越。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。