QUICK REVIEW

[论文解读] Using BERT for Word Sense Disambiguation

Jiaju Du, Fanchao Qi|arXiv (Cornell University)|Sep 18, 2019

Natural Language Processing Techniques参考文献 27被引用 31

一句话总结

本文提出对 BERT 进行微调以用于词义消歧（WSD），利用 BERT 的上下文表示，并结合词义定义以提升对罕见或未见多义词的性能。所提出的 BERT-def 模型在标准英文全词 WSD 基准测试中达到最先进水平，F1 分数相比先前方法提升 5.2%。

ABSTRACT

Word Sense Disambiguation (WSD), which aims to identify the correct sense of a given polyseme, is a long-standing problem in NLP. In this paper, we propose to use BERT to extract better polyseme representations for WSD and explore several ways of combining BERT and the classifier. We also utilize sense definitions to train a unified classifier for all words, which enables the model to disambiguate unseen polysemes. Experiments show that our model achieves the state-of-the-art results on the standard English All-word WSD evaluation.

研究动机与目标

探索对 BERT 进行微调在词义消歧（WSD）任务中的有效性，该任务是自然语言处理中的长期挑战。
通过利用词典数据库中的词义定义，解决罕见或多义词未见情况下的数据稀缺问题。
通过在词义定义上训练统一分类器，提升 WSD 性能，实现对未见词语的零样本消歧。
比较不同策略对多子词多义词标记的 BERT 隐藏状态进行聚合的方法。
评估在强大预训练语言模型（如 BERT）背景下，外部知识（词义定义）的影响。

提出的方法

在标准数据集上对 BERT 进行微调以执行 WSD 任务，用上下文化的 BERT 表示替代传统的特征工程。
使用平均池化或最大池化方法聚合多子词多义词的 BERT 隐藏状态，形成固定大小的上下文表示。
将 [CLS] 标记的隐藏状态与多义词表示拼接，以整合全局句子上下文。
使用两层多层感知机（MLP）分类器，从最终的多义词表示中预测词义概率。
通过使用独立的 BERT 编码器对词义定义进行编码，生成词义向量，从而提升对罕见或未见词义的泛化能力。
在所有词语上联合训练一个分类器，利用词义定义，实现对训练期间未见多义词的零样本消歧。

实验结果

研究问题

RQ1在 WSD 任务上对 BERT 进行微调是否能显著提升性能，相比先前最先进方法？
RQ2将词典数据库中的词义定义纳入模型是否能提升泛化能力，特别是对罕见或未见多义词？
RQ3哪种 BERT 隐藏状态聚合方法（平均池化、最大池化或与 [CLS] 向量拼接）在 WSD 任务上表现最佳？
RQ4模型在不同词性及词频等级下的表现如何？
RQ5在使用强大预训练模型（如 BERT）时，外部知识（词义定义）是否仍具优势？

主要发现

BERT-def 模型在整体英文全词 WSD 基准测试中达到最先进 F1 分数 76.3%，相比之前最佳模型提升 5.2 个百分点。
在未见词语（训练中频率为 0）上的性能提升 8 个百分点，表明词义定义有效支持了强大的零样本泛化能力。
在所有数据集和词性上，使用词义定义均提升了 F1 分数，其中名词和动词的增益最大，整体测试集提升达 5.2%。
多义词隐藏状态的平均池化性能与最大池化相当，而与 [CLS] 向量拼接则因引入无关全局上下文导致性能下降。
模型在低频词上保持强性能，表明上下文表示与词义定义的结合可缓解数据稀疏问题。
消融实验证实，词义定义对罕见词义极为有效，随着词频增加，性能增益逐渐减小，表明该方法最能缓解数据稀缺问题。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。