[论文解读] Learning Word Vectors for 157 Languages
该论文使用维基百科和公共抓取数据为157种语言训练高质量词向量,并引入三个新的单词类比数据集(法语、印地语、波兰语),并在10种语言上进行强评估,同时对数据源和模型变体进行了分析。
Distributed word representations, or word vectors, have recently been applied to many tasks in natural language processing, leading to state-of-the-art performance. A key ingredient to the successful application of these representations is to train them on very large corpora, and use these pre-trained models in downstream tasks. In this paper, we describe how we trained such high quality word representations for 157 languages. We used two sources of data to train these models: the free online encyclopedia Wikipedia and data from the common crawl project. We also introduce three new word analogy datasets to evaluate these word vectors, for French, Hindi and Polish. Finally, we evaluate our pre-trained word vectors on 10 languages for which evaluation datasets exists, showing very strong performance compared to previous models.
研究动机与目标
- 用大规模、跨语言的语料来推动英语以外的多语言词表示学习。
- 描述跨越157种语言的数据收集、语言识别、去重和分词步骤。
- 在fastText基础上扩展子词信息与位置加权CBOW,以训练高质量的多语言嵌入。
- 引入并翻译基于英语类比的新语言特定类比数据集(法语、印地语、波兰语),并在类比任务上评估多语言模型。
- 评估训练数据源(维基百科 vs. 公共抓取)和超参数选择对类比性能的影响。
提出的方法
- 使用带子词信息(字符n-gram)的fastText扩展来学习词向量。
- 比较skipgram与CBOW变体,包括一个带位置权重的CBOW模型。
- 按语言进行数据预处理、去重并使用语言相关工具进行分词。
- 在两类数据源上训练词向量:维基百科和公共抓取(May 2017抓取)。
- 引入并翻译基于英语类比的新语言特定数据集,覆盖法语、印地语和波兰语。
- 在十种语言上使用固定词汇表上限的词类比任务进行评估。
实验结果
研究问题
- RQ1是否能够使用大规模混合来源(维基百科与公共抓取)为157种语言学习出高质量的词向量?
- RQ2数据源、模型变体和超参数对多语言词类比性能有何影响?
- RQ3带子词信息的模型(fastText扩展)是否在跨语言类比中提升准确性?
- RQ4新引入的法语、印地语和波兰语类比数据集相较于现有基准对多语言嵌入评估有何影响?
主要发现
| 捷克语 | 德语 | 西班牙语 | 芬兰语 | 法语 | 印地语 | 意大利语 | 波兰语 | 葡萄牙语 | 汉语 | 平均 |
|---|---|---|---|---|---|---|---|---|---|---|
| 63.1 | 61.0 | 57.4 | 35.9 | 64.2 | 10.6 | 56.3 | 53.4 | 54.0 | 60.2 | 51.0 |
| 57.7 | 61.8 | 57.5 | 39.4 | 65.9 | 8.3 | 57.2 | 54.5 | 54.8 | 59.3 | 50.9 |
| 63.9 | 71.7 | 64.4 | 42.8 | 71.6 | 14.1 | 66.2 | 56.0 | 60.6 | 51.5 | 55.5 |
| 64.8 | 73.7 | 65.0 | 45.0 | 73.5 | 14.5 | 68.0 | 58.3 | 62.9 | 56.0 | 57.4 |
| 64.6 | 73.9 | 67.1 | 46.8 | 74.9 | 16.1 | 69.3 | 58.2 | 64.7 | 60.6 | 58.8 |
| 69.9 | 72.9 | 65.4 | 70.3 | 73.6 | 32.1 | 69.8 | 67.9 | 66.7 | 78.4 | 66.7 |
- 在维基百科与公共抓取上训练的词向量在十种语言中实现了强劲的类比性能。
- 带位置权重并结合子词信息的CBOW在总体上带来最大的改进。
- 使用更多的负样本和更多的训练轮次可以提高类比准确性,但训练成本也更高。
- 公共抓取数据提高覆盖率,在低资源语言(如印地语、芬兰语、波兰语)上的收益高于高资源语言,在高资源语言上可能收益有限或略有下降。
- 对于高资源语言,由于类比数据集的领域不匹配,抓取数据未必显著提升准确性。
- 新的法语、印地语和波兰语类比数据集使得多语言评估更为广泛。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。