QUICK REVIEW

[论文解读] All that is English may be Hindi: Enhancing language identification through automatic ranking of likeliness of word borrowing in social media

Jasabanta Patro, Bidisha Samanta|arXiv (Cornell University)|Jul 25, 2017

Linguistics, Language Diversity, and Identity参考文献 36被引用 19

一句话总结

本文提出了一种新颖的计算框架，利用社交媒体信号预测英语词汇被借入印地语的可能性，Spearman等级相关系数达到0.62——是先前基线方法的两倍以上。该方法基于推特上的用户级借用信号，88%的标注者建议将高概率借用的英语词汇重新标记为印地语，表明其在改进多语言语言识别系统方面具有强大潜力。

ABSTRACT

In this paper, we present a set of computational methods to identify the likeliness of a word being borrowed, based on the signals from social media. In terms of Spearman correlation coefficient values, our methods perform more than two times better (nearly 0.62) in predicting the borrowing likeliness compared to the best performing baseline (nearly 0.26) reported in literature. Based on this likeliness estimate we asked annotators to re-annotate the language tags of foreign words in predominantly native contexts. In 88 percent of cases the annotators felt that the foreign language tag should be replaced by native language tag, thus indicating a huge scope for improvement of automatic language identification systems.

研究动机与目标

基于社交媒体信号，开发一种计算方法，以预测英语词汇被借入印地语的可能性。
通过在正式词典收录之前检测早期借用阶段，改进多语言社交媒体中的自动语言识别。
评估人类标注者是否更倾向于在词汇极有可能被借用时，将外语词汇重新标记为母语语言。
探究语言混用频率较低的用户是否能提供更强的借用检测信号。

提出的方法

作者基于用户在印地语推文语境中的词汇使用模式，提出了三种新颖指标——UUR（用户级使用率）、UUR-Young 和 UUR-Elder。
UUR 衡量的是某外来词在印地语语境中出现的频率与总使用频率的比率，并按用户频率进行归一化。
该方法利用大规模印地语-英语语言混用推文数据集，计算每个词汇的借用可能性得分。
通过覆盖不同人口统计背景的58名人类裁判的调查，建立真实标签，以评估候选词汇的借用可能性。
使用Spearman等级相关系数将模型预测结果与人工标注的真实标签进行验证。
通过向专家标注者展示选定推文，开展重新标注实验，以评估他们是否会将语言标签从英语更改为印地语。

实验结果

研究问题

RQ1社交媒体信号能否在正式词典收录之前可靠地预测英语词汇被借入印地语的可能性？
RQ2语言混用频率较低的用户是否比频繁混用者提供更强的借用检测信号？
RQ3计算指标与人类对借用可能性的判断之间的相关性如何？
RQ4专家标注者在主要为印地语语境下，对将借用的英语词汇重新标记为印地语的共识程度如何？
RQ5借用可能性预测能否提升自动语言识别系统的表现？

主要发现

所提出的UUR指标与人工标注的借用可能性之间的Spearman等级相关系数达到0.62，超过最佳基线（0.26）两倍以上。
在语言混用最少的用户中，相关系数最高（0.65），表明低混用用户为借用检测提供了最可靠的信号。
对于预测为极可能被借用的词汇（TOP列表），88%的标注者建议在印地语语境中将标签从英语更改为印地语，且标注者间一致性高（Hall语境下Fleiss’ κ = 0.84）。
该方法在不同年龄组中表现稳健，年轻用户的判断与模型预测高度一致，表明对早期借用信号具有敏感性。
模型性能在不同用户类别中均表现稳健，其中低混用用户组的相关系数最高（0.65）。
结果表明，当前的语言识别系统可能将大量借用词汇误判为外语文本，纠正此类错误可显著提升多语言NLP流水线的性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。