[论文解读] What do you mean, BERT? Assessing BERT as a Distributional Semantics Model
本文评估 BERT 的上下文嵌入是否形成一个连贯的分布式语义空间,考察单词类型的聚合性以及由 BERT 的分段和下一句预测目标引入的跨句子效应。
Contextualized word embeddings, i.e. vector representations for words in context, are naturally seen as an extension of previous noncontextual distributional semantic models. In this work, we focus on BERT, a deep neural network that produces contextualized embeddings and has set the state-of-the-art in several semantic tasks, and study the semantic coherence of its embedding space. While showing a tendency towards coherence, BERT does not fully live up to the natural expectations for a semantic vector space. In particular, we find that the position of the sentence in which a word occurs, while having no meaning correlates, leaves a noticeable trace on the word embeddings and disturbs similarity relationships.
研究动机与目标
- 评估 BERT 的上下文嵌入在多大程度上符合分布式语义的预期。
- 测试在 BERT 的嵌入空间中,相同的单词类型是否形成连贯的聚类。
- 研究 BERT 表征中的跨句子连贯性以及分段引起的偏差。
提出的方法
- 将 BERT 视为黑箱,提取标记的最后一层嵌入。
- 使用轮廓系数来评估跨标记嵌入的单词类型聚合性。
- 分析分段编码和残差连接以衡量跨句子偏差。
- 计算均方误差(MSE)以测试跨段落的标记组的一致性。
- 通过比较句内和连续句之间的余弦相似度来评估句子级连贯性。
实验结果
研究问题
- RQ1在 BERT 的上下文嵌入空间中,单词类型是否形成自然且连贯的聚类?
- RQ2BERT 是否会在不同句子分段(段 A 与段 B)的标记之间引入语义上无关的差异,这对连贯性有何影响?
- RQ3分段编码和位置编码如何影响 BERT 的跨句子与句内语义关系?
- RQ4BERT 产生的句子级表示是否展现出适合分布式语义基准的连贯语义?
主要发现
- BERT 的单词类型聚合性存在但较弱:约 25.9% 的标记具有负轮廓系数,且 10% 的类型仅包含负值。
- 单词对的平均 BERT 嵌入之间的余弦相似度与人类相似性评分相关(Spearman 0.705),优于 Word2Vec 基线(0.669)。
- 跨句子连贯性显著体现分段效应,不同段的标记因分段编码和残差而显示出系统偏差;效应量中等(d = -0.527)。
- 对于许多项,跨段同一类型的嵌入与其所在段的均值比与另一段的均值更一致,表明分段偏差得到部分保留。
- 在使用单句输入方案时,BERT 的句子表示在 STS 和 SICK-R 基准上达到竞争性相关性,但在双句输入方案下,性能低于 Word2Vec。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。