QUICK REVIEW

[论文解读] Word Embeddings: A Survey

Felipe de M. Almeida, Geraldo Xexéo|arXiv (Cornell University)|Jan 25, 2019

Topic Modeling参考文献 18被引用 32

一句话总结

本文综述了构建词嵌入的主要策略，详细介绍基于预测的方法和基于计数的方法及它们对NLP任务的影响。

ABSTRACT

This work lists and describes the main recent strategies for building fixed-length, dense and distributed representations for words, based on the distributional hypothesis. These representations are now commonly called word embeddings and, in addition to encoding surprisingly good syntactic and semantic information, have been proven useful as extra features in many downstream NLP tasks.

研究动机与目标

在向量空间模型和语言建模传统中为词嵌入提供动机与背景。
总结基于预测的和基于计数的嵌入方法及它们与神经语言模型之间的关系。
突出词嵌入的实际结果和对下游NLP任务的好处。
概述未来研究的有前景的方向以及嵌入在特定任务中的适应性。

提出的方法

将词嵌入方法分为基于预测的（受神经语言模型启发）和基于计数的（全球共现统计）模型。
回顾神经网络语言模型（NNLMs）中的关键历史发展、训练优化以及将嵌入提取作为语言模型副产物的情况。
描述著名模型和技术（如CBOW、Skip-gram、Negative Sampling、Hierarchical Softmax、GloVe）及其演变。
讨论如何评估嵌入以及在下游NLP任务中将其用作特征。

实验结果

研究问题

RQ1词嵌入方法的主要家族及其核心假设是什么？
RQ2基于预测的和基于计数的模型如何演变，它们在实践中有何比较？
RQ3词嵌入对下游NLP任务的已记录好处是什么，未来方向有哪些？
RQ4如何为更高层次的语言单位适应或组合嵌入？

主要发现

词嵌入编码了对NLP任务有用的句法和语义关系。
基于预测的和基于计数的模型提供互补的优势，并在概念上已被联系起来（与 PMI 相关）。
高效性提升（例如负采样、分层Softmax、NCE）显著加速了嵌入模型的训练。
子词信息（FastText）和全语料统计信息提高了泛化性，尤其对形态丰富的语言有帮助。
GloVe及其他基于计数的方法在类比和NER任务上可超越先前模型，显示出强大的下游效用。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。