[论文解读] MUSS: Multilingual Unsupervised Sentence Simplification by Mining Paraphrases
MUSS 提出了一种多语言、无监督的句子简化框架,仅通过挖掘的释义数据进行训练,即可获得高性能模型,而无需使用人工标注的简化句对。通过利用语义句子嵌入从 Common Crawl 中挖掘大规模释义语料,并结合无监督预训练与可控生成,MUSS 在英语、法语和西班牙语中的表现达到或超过有监督的最先进水平,且完全不依赖任何人工标注的简化数据。
Progress in sentence simplification has been hindered by a lack of labeled parallel simplification data, particularly in languages other than English. We introduce MUSS, a Multilingual Unsupervised Sentence Simplification system that does not require labeled simplification data. MUSS uses a novel approach to sentence simplification that trains strong models using sentence-level paraphrase data instead of proper simplification data. These models leverage unsupervised pretraining and controllable generation mechanisms to flexibly adjust attributes such as length and lexical complexity at inference time. We further present a method to mine such paraphrase data in any language from Common Crawl using semantic sentence embeddings, thus removing the need for labeled data. We evaluate our approach on English, French, and Spanish simplification benchmarks and closely match or outperform the previous best supervised results, despite not using any labeled simplification data. We push the state of the art further by incorporating labeled simplification data.
研究动机与目标
- 为解决低资源语言中人工标注简化数据稀缺的问题,开发一种不依赖此类数据的方法。
- 通过在大规模自动挖掘的释义数据上训练模型,而非使用人工标注的简化句对,提升多语言句子简化性能。
- 在推理阶段实现对长度和词汇复杂度等属性的灵活控制。
- 证明基于释义的训练优于直接挖掘简化句对的性能表现。
- 发布预训练模型、挖掘的释义数据及代码,以支持可复现性与进一步研究。
提出的方法
- 利用语义句子嵌入从 Common Crawl 中挖掘释义对,构建大规模、与语言无关的训练数据。
- 通过无监督预训练(如 BART)训练序列到序列模型,以提升流畅性与语义保留能力。
- 通过 ACCESS 实现可控生成,在推理阶段调整简化属性(如长度和词汇复杂度)。
- 采用基于检索的方法,通过在大规模嵌入索引中测量句子之间的语义相似度,识别释义对。
- 优化挖掘启发式策略,优先考虑句子拆分、长度缩短和词汇简化,以提升简化质量。
- 结合预训练与可控生成,进一步提升模型性能,超越标准序列到序列模型。
实验结果
研究问题
- RQ1无监督句子简化模型是否能在不依赖人工标注简化数据的情况下实现最先进性能?
- RQ2在挖掘的释义数据上进行训练是否优于在直接挖掘的简化句对上进行训练?
- RQ3从 Common Crawl 大规模无监督挖掘释义数据在多语言简化任务中效果如何?
- RQ4预训练与可控生成在提升简化流畅性、语义保留与简化程度方面的贡献有多大?
- RQ5单一统一框架是否能在无需语言特定微调的情况下跨多种语言实现泛化?
主要发现
- 尽管未使用任何人工标注的简化数据,MUSS 在英语、法语和西班牙语中的表现与或优于有监督的最先进模型。
- 在挖掘的释义数据上训练的模型优于在直接挖掘的简化句对上训练的模型,表明释义挖掘能带来更好的泛化能力。
- 随着挖掘数据量的增加,性能显著提升,SARI 分数在训练数据扩展至数百万对时大幅提升。
- 无监督预训练(BART)与可控生成(ACCESS)的结合实现了最强性能,显著提升了流畅性与语义保留能力。
- 人工评估证实,MUSS 生成的简化句比以往模型更流畅、更简单,甚至在某些情况下优于人类参考简化句。
- 该方法在不同语言间表现稳健,使用相同框架与训练流程,在英语、法语和西班牙语中均取得优异结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。