QUICK REVIEW

[论文解读] Towards better substitution-based word sense induction

Asaf Amrami, Yoav Goldberg|arXiv (Cornell University)|May 29, 2019

Topic Modeling参考文献 16被引用 50

一句话总结

该论文用 Bert 为替代词向量的替代方法并结合动态聚类，扩展了基于替代的 WSI，并通过每个语义的替代签名实现可解释性，同时对失败模式进行了误差分析。

ABSTRACT

Word sense induction (WSI) is the task of unsupervised clustering of word usages within a sentence to distinguish senses. Recent work obtain strong results by clustering lexical substitutes derived from pre-trained RNN language models (ELMo). Adapting the method to BERT improves the scores even further. We extend the previous method to support a dynamic rather than a fixed number of clusters as supported by other prominent methods, and propose a method for interpreting the resulting clusters by associating them with their most informative substitutes. We then perform extensive error analysis revealing the remaining sources of errors in the WSI task. Our code is available at https://github.com/asafamr/bertwsi.

研究动机与目标

通过利用来自强大上下文语言模型（BERT）的替代向量来改进词义指派（WSI）。
将目标词的语义个数从固定数量改为动态数量。
通过有信息量的替代物（签名）提升语义簇的可解释性。
诊断 WSI 中剩余的错误模式以指导未来工作。

提出的方法

在 LSDP 框架中用 BERT 基替代替代 ELMo 基替代。
结合动态模式（括号内及相关模式）以获取更好的替代。
对代表进行软聚类（每个实例 k*r 个样本）以对代表进行硬聚类、对实例进行软聚类。
引入动态语义数目流程：最多生成 10 个语义，按强/弱分类并将弱合并到强；据此重新聚类。
为每个语义计算基于 PMI 的签名（前排替代物）以解释簇。

实验结果

研究问题

RQ1用 BERT 取代 ELMo 进行替代式 WSI 是否提升标准基准的性能？
RQ2允许目标词具有动态的语义数量是否比固定语义方法能提升 WSI 质量？
RQ3按语义的替代签名是否能改善 WSI 簇的可解释性与误差分析？
RQ4替代式 WSI 仍存在哪些错误模式，如何改进？

主要发现

Model	FNMI	FBC	AVG
Ours	21.4 (0.5)	64.0 (0.5)	37.0 (0.5)
Ours:ND	19.3 (0.7)	63.6 (0.2)	35.1 (0.6)
LSDP	25.4	57.5	25.4
AutoSense	7.96	61.7	22.16
MCC-S	7.62	55.6	20.58
ST(SW)	7.14	55.4	19.89
AI-KU	6.5	39.0	15.92
--	--	--	--
--	--	--	--

基于 BERT 的替代结合动态模式在 SemEval 2013 Task 13 和 2010 Task 14 上达到最先进的结果；在强 BERT 性能基础上，动态模式额外带来约 2 点的 AVG 提升。
固定的 7 语义设置在这些任务上表现良好，但动态的 10 语义过度产生并对弱/强进行裁剪提供了一种分析不同粒度的原理化方法。
动态语义诱导未在 SemEval 2013 上提高 AVG，但产生了合理的语义结构，并与金标准语义计数的 Spearman 相关系数为 0.43±0.05；类比最优调参与基于 NOAD 的粗粒度基线在约 0.44 左右。
通过基于 PMI 的签名对簇进行可解释性分析，揭示了核心语义特征并有助于诊断 SPLIT、MERGE、TOPIC、TEMPLATE、以及 LM 相关的错误。
错误分析识别出主要失败模式：LM 替代错误、SPLIT/MERGE 区分、TOPIC 替代、TEMPLATE 模式，以及其他不连贯的簇。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。