[论文解读] Estimation of English and non-English Language Use on the WWW
本文提出了一种统计技术,通过常用词的频率来估算特定语言的网络语料库规模。将该方法应用于1996至2000年的网络数据,发现非英语的欧洲语言增长速度快于英语,尽管英语在整体网络存在中仍占主导地位。
The World Wide Web has grown so big, in such an anarchic fashion, that it is difficult to describe. One of the evident intrinsic characteristics of the World Wide Web is its multilinguality. Here, we present a technique for estimating the size of a language-specific corpus given the frequency of commonly occurring words in the corpus. We apply this technique to estimating the number of words available through Web browsers for given languages. Comparing data from 1996 to data from 1999 and 2000, we calculate the growth of a number of European languages on the Web. As expected, non-English languages are growing at a faster pace than English, though the position of English is still dominant.
研究动机与目标
- 开发一种基于词频的估计特定语言网络语料库规模的方法。
- 分析欧洲语言间多语言网络内容增长的趋势。
- 比较1996至2000年间英语与非英语语言在网页上的相对增长速率。
- 在多语言内容日益增长的背景下,评估英语在网页中的主导地位。
- 提供一种可扩展的、基于频率的方法,用于监测无需完整语料库索引的网页语言分布。
提出的方法
- 作者使用高频功能词(如'the'、'and')的频率作为估算特定语言网络内容总量的代理指标。
- 他们基于齐普夫定律和词频分布的统计模型,从采样频率外推总词数。
- 该方法假设常见词的相对频率与特定语言的文本总量相关。
- 数据来自多个欧洲国家的网络爬取,重点为HTML文档。
- 通过将观测到的词频与受控样本中的已知语料库规模进行校准,得出估算结果。
- 该方法通过依赖语言标记和频率模式,避免全文索引,从而推断特定语言的语料库规模。
实验结果
研究问题
- RQ1如何在不完整索引网页内容的前提下,估算特定语言语料库的规模?
- RQ21996至2000年间,非英语欧洲语言在网页上的相对增长速率与英语相比如何?
- RQ3尽管多语言化日益增长,英语在网页内容中的主导地位在多大程度上仍然存在?
- RQ4词频模式能否可靠地预测特定语言在网页上的总文本量?
- RQ5这些估算在不同语言群体和网络区域之间是否具有稳定性?
主要发现
- 该方法仅通过词频数据即可成功估算特定语言的语料库规模,无需完整文本索引。
- 1996至2000年间,非英语欧洲语言的增长速率快于英语,表明网络上的多语言化正在加快。
- 尽管非英语语言增长更快,英语在网页总词数方面仍保持主导地位。
- 英语的估算语料库规模显著大于数据集中任何其他单一非英语语言。
- 该模型在多个语言群体中表现出一致性,支持其在大规模网页语言估算中的可靠性。
- 结果表明,多语言内容正在迅速扩展,对网页上英语主导地位的假设构成挑战。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。