Skip to main content
QUICK REVIEW

[论文解读] A Simple BERT-Based Approach for Lexical Simplification

Jipeng Qiang, Yun Li|arXiv (Cornell University)|Jul 14, 2019
Text Readability and Simplification参考文献 11被引用 10
一句话总结

本文提出了一种简单且完全无监督的基于 BERT 的词汇简化方法,利用 BERT 的上下文嵌入表示,在句子上下文中生成简化词汇替换。尽管未使用语言学数据库或平行语料库,该方法在三个基准数据集上的准确率超越了先前最先进方法超过 11 个百分点。

ABSTRACT

Lexical simplification (LS) aims to replace complex words in a given sentence with their simpler alternatives of equivalent meaning. Recently unsupervised lexical simplification approaches only rely on the complex word itself regardless of the given sentence to generate candidate substitutions, which will inevitably produce a large number of spurious candidates. We present a simple BERT-based LS approach that makes use of the pre-trained unsupervised deep bidirectional representations BERT. Despite being entirely unsupervised, experimental results show that our approach obtains obvious improvement than these baselines leveraging linguistic databases and parallel corpus, outperforming the state-of-the-art by more than 11 Accuracy points on three well-known benchmarks.

研究动机与目标

  • 为解决现有无监督词汇简化方法因忽略句子上下文而生成大量虚假候选词的局限性。
  • 探究预训练的上下文嵌入(如 BERT)是否能在不依赖外部语言学资源的情况下提升词汇简化性能。
  • 开发一种简单但高效的无监督方法,在标准基准上超越监督方法和资源密集型基线。
  • 证明仅使用上下文表示即可显著提升词汇简化准确率。

提出的方法

  • 该方法使用 BERT 编码输入句子和上下文中的复杂词汇,捕捉丰富的上下文表示。
  • 利用 BERT 的上下文嵌入计算复杂词汇与候选词汇之间的语义相似度。
  • 根据候选词汇在完整句子上下文中的相似度选择最优候选词。
  • 该方法完全无监督,仅依赖预训练的 BERT 表示,无需微调或外部知识。
  • 避免依赖语言学数据库或平行语料库,专注于上下文词汇表示。

实验结果

研究问题

  • RQ1基于 BERT 的方法是否能在不使用语言学数据库或平行语料库的情况下实现词汇简化任务的最先进性能?
  • RQ2与仅考虑复杂词汇本身的方法相比,BERT 提供的上下文感知表示在候选词选择方面有何改进?
  • RQ3利用预训练语言模型的无监督方法在多大程度上能超越监督方法或依赖资源的方法在词汇简化任务中的表现?

主要发现

  • 所提出的基于 BERT 的方法在三个广泛使用的词汇简化基准上,相比最先进方法实现了超过 11 个百分点的显著准确率提升。
  • 尽管完全无监督,该方法仍优于依赖语言学数据库和平行语料库的基线方法。
  • 使用 BERT 的上下文嵌入使词汇替换更加准确且更符合上下文语境。
  • 该方法表明,预训练语言模型本身即可作为强大的独立工具用于词汇简化,无需微调或外部资源。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。