Skip to main content
QUICK REVIEW

[论文解读] Mapping Languages and Demographics with Georeferenced Corpora

Jonathan Dunn, Benjamin Adams|arXiv (Cornell University)|Jan 1, 2019
Authorship Attribution and Profiling参考文献 23被引用 6
一句话总结

本研究将地理定位的网络抓取语料和Twitter语料与人口和语言普查的基准数据进行对比,评估其对全球人口的代表性。结果表明,Twitter数据与实际人口统计数据的相关性更强(r = 0.60),优于网络抓取数据(r = 0.49),且在预测各国多语言使用情况方面表现更优;然而,两类数据集在东欧及较富裕国家仍存在区域偏差。

ABSTRACT

This paper evaluates large georeferenced corpora, taken from both web-crawled and social media sources, against ground-truth population and language-census datasets. The goal is to determine (i) which dataset best represents population demographics; (ii) in what parts of the world thedatasets are most representative of actual populations; and (iii) how to weight the datasets to provide more accurate representations of underlying populations. The paper finds that the two datasets represent very different populations and that they correlate with actual populations with values of r = 0:60 (social media) and r = 0:49 (web-crawled). Further, Twitter data makes better predictions about the inventory of languages used in each country.

研究动机与目标

  • 评估大规模地理定位语料在多大程度上代表现实世界的人口统计数据。
  • 识别这些语料在哪些地理区域最能和最不能代表实际人口。
  • 评估语言识别模型在从用户生成内容中捕捉国家层面语言使用情况方面的有效性。
  • 确定数据集加权策略是否能提升数字文本语料中的人口统计准确性。

提出的方法

  • 从网络抓取数据(Common Crawl,2014–2017)收集166.5亿词,从Twitter(2017–2019)收集41.4亿词,均通过顶级域名或基于城市的地理空间搜索实现地理定位。
  • 应用语言识别模型为所有文本标注语言代码,设置50个字符的最小阈值以确保可靠性。
  • 将语料中的语言频率和人口代理指标与四个基准进行对比:联合国人口估计、人均GDP、互联网使用率,以及联合国/世界事实年鉴的语言普查数据。
  • 通过语料数据与基准人口和语言使用之间的皮尔逊相关系数(Pearson r)评估代表性。
  • 通过将语料的语言清单与基于普查的语言使用阈值(≥5%的人口)对比,测量语言检测的真正例率和假正例率。
  • 通过国家层面分析评估区域偏差,特别是在东欧和高GDP国家,并探索加权策略以纠正人口统计偏差。

实验结果

研究问题

  • RQ1地理定位的网络抓取语料和社交媒体语料在多大程度上能代表真实全球人口统计数据?
  • RQ2在反映各国实际使用语言的分布方面,网络抓取语料和Twitter语料中哪一类更优?
  • RQ3在哪些地理区域,这些语料最能和最不能代表真实人口?
  • RQ4这些语料中假正例语言检测的发生程度如何,哪些因素导致了区域性的过度预测?
  • RQ5加权策略是否能提升基于语料的人口统计代表性准确性?

主要发现

  • Twitter数据与基准人口估计的相关性更强(r = 0.60),优于网络抓取数据(r = 0.49),表明其在人口统计代表性方面表现更优。
  • 与网络抓取数据相比,Twitter数据在预测国家层面完整语言使用清单方面更准确,尤其在北美和大洋洲地区。
  • 假正例语言检测在Twitter数据中更为常见,特别是在俄罗斯、美国、加拿大、南非和澳大利亚的欧洲语言中,表明旅游、商业或移民因素导致过度代表。
  • 网络抓取数据总体假正例较少,但仍因顶级域名使用率过高(占语料的27.4%,而世界人口仅占2.4%)而过度代表东欧地区。
  • 尽管缺乏或缺失普查语言数据的国家仍难以评估,但该方法可在数据稀缺地区实现预测。
  • 本研究识别出两类语料的系统性偏差:Twitter语料更偏向富裕和城市人口;建议通过GDP或互联网使用率进行加权,可提升代表性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。