[论文解读] Separated by an Un-common Language: Towards Judgment Language Informed Vector Space Modeling
本文研究了判断语言(jl)对人类语义判断及向量空间模型(VSM)性能的影响,将WordSim353和SimLex999翻译为意大利语、德语和俄语。结果表明,人类评分在不同判断语言下存在显著差异,通过线性插值和典型相关分析(CCA)组合的多语言VSM能显著提升跨语言的人类判断相关性,表明多语言建模可缓解语义评估中由判断语言引起的偏差。
A common evaluation practice in the vector space models (VSMs) literature is to measure the models' ability to predict human judgments about lexical semantic relations between word pairs. Most existing evaluation sets, however, consist of scores collected for English word pairs only, ignoring the potential impact of the judgment language in which word pairs are presented on the human scores. In this paper we translate two prominent evaluation sets, wordsim353 (association) and SimLex999 (similarity), from English to Italian, German and Russian and collect scores for each dataset from crowdworkers fluent in its language. Our analysis reveals that human judgments are strongly impacted by the judgment language. Moreover, we show that the predictions of monolingual VSMs do not necessarily best correlate with human judgments made with the language used for model training, suggesting that models and humans are affected differently by the language they use when making semantic judgments. Finally, we show that in a large number of setups, multilingual VSM combination results in improved correlations with human judgments, suggesting that multilingualism may partially compensate for the judgment language effect on human judgments.
研究动机与目标
- 探究以何种语言呈现词对(即判断语言)会影响人类对词语关联性和相似性的语义判断。
- 检验在特定语言上训练的单语VSM是否最能预测在该语言中做出的人类判断。
- 评估多语言VSM组合是否能提升不同判断语言下的预测准确率。
- 评估多语言VSM对语料规模变化及语言特异性偏差的鲁棒性。
提出的方法
- 将两个主要的英文评估数据集——WordSim353(关联性)和SimLex999(相似性)——翻译为意大利语、德语和俄语,以构建多语言判断数据集。
- 通过CrowdFlower平台收集母语者对目标语言的判断,以评估标注者间一致性及语言特异性模式。
- 在英语、意大利语、德语和俄语的可比单语语料库上,分别训练单语袋模型(BOW)和word2vec(W2V)模型。
- 采用线性插值(li)和典型相关分析(CCA)将单语模型组合,生成多语言向量表示。
- 通过计算所有语言组合中预测得分与人工标注得分之间的Spearman等级相关系数,评估模型性能。
- 通过在小规模和大规模训练语料上重复实验,控制语料规模的影响,确保研究结果的稳健性。
实验结果
研究问题
- RQ1判断语言(jl)是否显著影响人类对词对关联性和相似性的评分?
- RQ2在特定语言上训练的单语VSM是否最能预测在该语言中做出的人类判断?
- RQ3与单语模型相比,多语言VSM组合方法是否能提升在不同判断语言下的预测准确率?
- RQ4线性插值和CCA等多语言组合技术在不同语言对上的表现,相对于单语基线如何?
主要发现
- 标注者间的一致性在相同判断语言内部显著高于跨语言,表明词语关联性和相似性判断强烈受判断语言影响。
- 在关联性任务中,基于特定语言训练的单语VSM与在该语言中做出的人类判断相关性最高。
- 在相似性任务中,无单一语言始终优于其他语言;部分判断语言与所有单语模型的相关性优于其他语言。
- 通过线性插值实现的多语言VSM组合在96组中的68组(70.8%)中优于单语模型,表明具有强大的跨语言泛化能力。
- 采用线性插值训练的多语言模型在68%的情况下优于单语插值模型,表明多语言建模有助于缓解判断语言偏差。
- 基于CCA的多语言组合方法结果参差不齐,仅在SimLex999上有所提升,且在所有语言对上并不一致,表明其鲁棒性低于线性插值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。