QUICK REVIEW
[论文解读] Homonym Identification using BERT - Using a Clustering Approach
Rohan Saha|arXiv (Cornell University)|Jan 1, 2020
Natural Language Processing Techniques参考文献 6被引用 3
一句话总结
本研究调查了BERT的上下文嵌入是否能通过聚类词义表示来识别同义词;尽管在SemCor标注数据上使用了层次聚类、DBSCAN和均值漂移算法,结果表明聚类性能较差,原因是嵌入向量重叠且分布均匀,表明即使使用强大的上下文表示,无监督聚类也无法区分同义词的不同词义。
ABSTRACT
Homonym identification is important for WSD that require coarse-grained partitions of senses. The goal of this project is to determine whether contextual information is sufficient for identifying a homonymous word. To capture the context, BERT embeddings are used as opposed to Word2Vec, which conflates senses into one vector. SemCor is leveraged to retrieve the embeddings. Various clustering algorithms are applied to the embeddings. Finally, the embeddings are visualized in a lower-dimensional space to understand the feasibility of the clustering process.
研究动机与目标
- 确定BERT的上下文嵌入是否足以识别同义词。
- 评估聚类算法是否能在高维空间中分离同义词的不同词义。
- 评估利用BERT嵌入进行无监督聚类以实现粗粒度词义划分的可行性。
- 在SemCor标注数据上比较多种聚类和降维技术。
提出的方法
- 使用BERT为SemCor句子中的目标词生成上下文词嵌入。
- 将每个词标记映射到其WordNet词义键,以建立真实标签的同义词组。
- 在BERT嵌入上应用三种聚类算法:层次聚类、DBSCAN和均值漂移。
- 采用降维技术,包括T-SNE、PCA、MDS、Isomap和LLE,以可视化聚类结果。
- 使用T-SNE和MDS可视化结果,以评估聚类质量及词义组的分离程度。
- 通过比较预测聚类标签与真实同义词组标签来评估聚类性能。
实验结果
研究问题
- RQ1BERT嵌入能否以有效方式表示同义词的不同词义,从而支持无监督聚类?
- RQ2聚类算法是否能在嵌入空间中成功将同义词的多个词义分离为不同组?
- RQ3不同降维技术如何影响同义词嵌入的可视化可解释性及聚类性能?
- RQ4聚类性能是否在不同同义词间具有泛化能力,还是因词而异显著?
主要发现
- 聚类算法未能正确分配同义词词义的标签,准确率低于随机水平。
- 使用T-SNE和MDS的可视化显示,不同同义词组的嵌入存在显著重叠,尤其在如'light'这样的词上更为明显。
- PCA因线性特性导致聚类密集且难以区分,无法捕捉数据中的非线性结构。
- 相同的超参数设置无法在不同同义词间通用,表明聚类方法的鲁棒性较差。
- 语义相关的多义词嵌入在高维空间中分布均匀,增加了聚类难度。
- 尽管BERT提供了强大的上下文表示,但该方法仍无法通过无监督聚类可靠地区分同义词的词义。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。