QUICK REVIEW

[论文解读] Advances in Pre-Training Distributed Word Representations

Tomáš Mikolov, Édouard Grave|arXiv (Cornell University)|Dec 26, 2017

Topic Modeling参考文献 17被引用 327

一句话总结

本文通过结合若干广为人知的技巧（去重、短语、与位置相关的加权、子词信息）来训练高质量的词向量，并发布的 fastText 模型在多个基准测试和问答任务中超越了以往的最先进方法。

ABSTRACT

Many Natural Language Processing applications nowadays rely on pre-trained word representations estimated from large text corpora such as news collections, Wikipedia and Web Crawl. In this paper, we show how to train high-quality word vector representations by using a combination of known tricks that are however rarely used together. The main result of our work is the new set of publicly available pre-trained models that outperform the current state of the art by a large margin on a number of tasks.

研究动机与目标

推动使用大规模无标签语料来为自然语言处理任务学习鲁棒的词表示。
探索将已知的 word2vec/fastText 训练改进方法结合起来对向量质量的影响。
证明去重、短语表示、位置感知加权和子词信息能够产生更优的向量。
提供公开可用的预训练模型，供研究人员和工程师广泛使用。

提出的方法

描述以 word2vec 为基础的 skip-gram/CBOW 框架和负采样的 CBOW 训练。
应用词频下采样以减少对高频词的过拟合。
通过将向量与每个相对上下文位置相关联来引入位置相关加权，以重新加权上下文词。
通过预处理步骤将高互信息的 n-gram 合并为单个标记（如 New_York），以实现短语表示。
通过将字符 n-gram 向量（3- 到 6-gram）与词向量相加来用子词信息增强词向量，使用哈希来管理内存。
在大规模公开可用的语料库（维基百科、新闻、Gigaword、Common Crawl）上训练，并与 GloVe 基线进行比较。

实验结果

研究问题

RQ1已知改进的组合（去重、短语、位置相关加权、子词特征）是否会产生更高质量的词向量？
RQ2与 GloVe 和早前的向量相比，所提议的基于 fastText 的向量在标准类比、Rare Words 和问答基准上的表现如何？
RQ3训练数据规模和预处理（如句子去重）对向量质量的影响是什么？
RQ4子词信息是否可以提升形态丰富语言以及稀有/拼写错误单词表示的性能？

主要发现

对像 Common Crawl 这样的大型语料进行去重显著提升向量质量。
增加短语表示和位置相关加权在类比任务中带来显著提升。
将子词信息融入后，在标准基准上类比正确率提升至 88.5%，超过 GloVe 和基线 fastText。
在维基百科+新闻和 Crawl 上训练的 FastText 向量在多个基准测试（包括 Rare Words 和基于 Squad 的问答任务）中优于 GloVe。
在监督文本分类任务中，与同等语料下的 GloVe 向量相比，fastText 向量为分类器提供了更优的初始化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。