[论文解读] Nationality Classification Using Name Embeddings
本文提出 NamePrism,一种基于 5,700 万条联系人列表中同质性模式学习的姓名嵌入的国籍与族裔分类器,实现了最先进性能。通过利用通信网络结构学习鲁棒的姓名表征,其在 13 类基准测试中取得 0.795 的 F1 分数,显著优于先前方法(如 Ethnea 的 0.580)。
Nationality identification unlocks important demographic information, with many applications in biomedical and sociological research. Existing name-based nationality classifiers use name substrings as features and are trained on small, unrepresentative sets of labeled names, typically extracted from Wikipedia. As a result, these methods achieve limited performance and cannot support fine-grained classification. We exploit the phenomena of homophily in communication patterns to learn name embeddings, a new representation that encodes gender, ethnicity, and nationality which is readily applicable to building classifiers and other systems. Through our analysis of 57M contact lists from a major Internet company, we are able to design a fine-grained nationality classifier covering 39 groups representing over 90% of the world population. In an evaluation against other published systems over 13 common classes, our F1 score (0.795) is substantial better than our closest competitor Ethnea (0.580). To the best of our knowledge, this is the most accurate, fine-grained nationality classifier available. As a social media application, we apply our classifiers to the followers of major Twitter celebrities over six different domains. We demonstrate stark differences in the ethnicities of the followers of Trump and Obama, and in the sports and entertainments favored by different groups. Finally, we identify an anomalous political figure whose presumably inflated following appears largely incapable of reading the language he posts in.
研究动机与目标
- 解决现有基于姓名的国籍分类器在小规模、非代表性数据集上性能有限且粒度粗糙的问题。
- 通过引入数据驱动的嵌入方法,克服对子串特征的依赖以及在非拉丁字母脚本上的泛化能力差的问题。
- 开发一个覆盖 39 个国籍、代表全球 90% 以上人口的细粒度、公开可访问的分类器。
- 仅使用姓名信息,在生物医学与社会学研究等隐私敏感领域实现准确的人口统计推断。
- 通过社交媒体分析展示实际应用价值,揭示不同领域(如政治、娱乐)的高影响力 Twitter 名人粉丝群体在族裔构成上的差异。
提出的方法
- 利用同质性原则(人们倾向于与相似者交往)从 5,700 万条匿名联系人列表中推导姓名嵌入。
- 在联系人列表内的姓名共现模式上训练词嵌入(如 Skip-gram),以学习编码性别、族裔与国籍的表征。
- 基于 118 个国家的标签构建 39 个国籍的分层分类体系,真实标签来自美国人口普查数据与全球姓名分布。
- 应用贝叶斯推断,通过将罕见姓名与已知族裔的常见姓氏关联,估算其族裔分布。
- 将姓名嵌入作为特征输入朴素贝叶斯分类器,用于国籍与族裔预测。
- 通过结合基于美国的估计与来自电子邮件和 Twitter 数据的全球姓名标签,将模型扩展至非美国姓名。
实验结果
研究问题
- RQ1是否可以利用通信网络结构学习到更鲁棒的姓名表征,以编码国籍与族裔?
- RQ2与基于子串的方法相比,从大规模联系人列表中提取的姓名嵌入是否能显著提升国籍与族裔分类的准确性?
- RQ3细粒度且具有全球代表性的国籍分类体系在多样化姓名集合上的分类性能提升程度如何?
- RQ4在不同领域(如政治、娱乐)的高影响力 Twitter 名人中,其粉丝的族裔构成有何差异?
- RQ5国籍分类是否能检测社交媒体粉丝网络中的异常现象,如语言与粉丝人口统计不匹配?
主要发现
- NamePrism 在 13 类国籍分类基准测试中取得 0.795 的 F1 分数,显著优于 Ethnea(0.580)、HMM(0.364)与 EthnicSeer(0.571)。
- 姓名嵌入在嵌入空间中生成的空间图谱与现实世界中的国界高度一致,表明其具备有意义的语义结构。
- 对 Twitter 粉丝的分析显示,特朗普的粉丝中白人比例显著偏高,而奥巴马与克林顿的粉丝中少数族裔比例更高。
- 印度名人(如宝莱坞明星)的粉丝绝大多数为印度裔,而西班牙裔粉丝则更偏好足球与拳击类内容。
- 异常现象:一位仅获 4.5 万次 Google 搜索结果的印度尼西亚政治人物,其 50% 的粉丝拥有英国、俄罗斯或印度姓名,尽管其内容仅以印尼语发布——表明可能存在机器人或非真实活动。
- 该模型通过将罕见姓名与具有已知美国人口普查族裔标签的姓氏关联,成功估算出罕见姓名的族裔分布,从而扩展了对常见姓名之外的覆盖范围。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。