QUICK REVIEW

[论文解读] Learning Word Representations with Hierarchical Sparse Coding

Dani Yogatama, Manaal Faruqui|arXiv (Cornell University)|Jun 8, 2014

Topic Modeling参考文献 12被引用 33

一句话总结

本文提出一种具有组套索正则化的分层稀疏编码方法，以学习反映粗粒度到细粒度语义组织的词向量表示，灵感来源于词汇语义学与认知科学。该方法采用随机邻近算法，可高效训练于十亿词规模的语料库，在词相似度、类比、句子补全及情感分析等任务上达到最先进或具有竞争力的性能，并已将模型公开发布于 http://www.ark.cs.cmu.edu/dyogatam/wordvecs/。

ABSTRACT

We propose a new method for learning word representations using hierarchical regularization in sparse coding inspired by the linguistic study of word meanings. We show an efficient learning algorithm based on stochastic proximal methods that is significantly faster than previous approaches, making it possible to perform hierarchical sparse coding on a corpus of billions of word tokens. Experiments on various benchmark tasks---word similarity ranking, analogies, sentence completion, and sentiment analysis---demonstrate that the method outperforms or is competitive with state-of-the-art methods. Our word representations are available at \url{http://www.ark.cs.cmu.edu/dyogatam/wordvecs/}.

研究动机与目标

开发一种可扩展的方法，用于学习编码分层语义结构的词向量表示。
通过结构化正则化强制潜在维度实现粗粒度到细粒度的组织，以提升词向量表示的质量。
利用随机优化实现对大规模语料库（数十亿词）的高效训练。
在多个自然语言处理基准任务上展示最先进或具有竞争力的性能。
公开发布训练好的词向量，以支持公众使用与可复现性。

提出的方法

使用稀疏编码将词与上下文的共现矩阵分解为字典 D 和编码矩阵 A。
对 A 应用森林结构的组套索正则化器，强制高层潜在维度在低层之前激活。
该正则化器确保层次结构中的某个节点仅在其所有祖先节点非零时才可非零，从而强制实现粗粒度到细粒度的激活顺序。
采用随机邻近方法优化非凸目标函数，使在大规模稀疏语料库上的训练成为可能。
将点互信息（PMI）作为词-上下文共现统计的输入表示。
使用交替方向乘子法（ADMM）进行小批量更新，实现对 40 万词类与数十亿词的可扩展性训练。

实验结果

研究问题

RQ1在稀疏编码中引入分层正则化是否能通过建模语义层次结构来提升词向量表示的质量？
RQ2在潜在维度中强制实现粗粒度到细粒度的激活顺序是否能提升下游自然语言处理任务的性能？
RQ3随机邻近优化能否使分层稀疏编码扩展至十亿词规模的语料库？
RQ4该方法在标准基准测试中与最先进词嵌入模型相比表现如何？
RQ5所学习的表示能否有效捕捉语义与句法类比？

主要发现

在 M=520 的设置下，FOREST 模型在词相似度任务上的相关系数达到 0.66，优于 NNSE（0.05）、CBOW-HS（0.50）与 SG-HS（0.57）。
在句法类比任务中，FOREST 得分为 48.00（满分 100），优于 CBOW-HS（46.00）与 SG-HS（50.40）（M=520）。
在语义类比任务中，FOREST 达到 41.33（满分 100），显著优于 NNSE（0.57）、CBOW-HS（8.00）与 SG-HS（31.05）。
在句子补全任务中，FOREST 在 M=520 时达到 35.86% 的准确率，超过 CBOW-HS（25.80%）与 SG-HS（27.79%）。
在情感分析任务中，FOREST 在 M=520 时达到 81.90% 的准确率，优于 SG-HS（79.57%）与 CBOW-HS（78.50%）。
该方法通过随机邻近优化，可高效扩展至 400,000 个词类与数十亿词的语料库，实现大规模语料库的训练。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。