[论文解读] All-but-the-Top: Simple and Effective Postprocessing for Word Representations
一个简单的后处理技术,通过去除非零均值和从词向量中去除前几位主导的 PCA 方向,使表示更加各向同性,从而在内在和外在 NLP 任务中获得一致的改进。
Real-valued word representations have transformed NLP applications; popular examples are word2vec and GloVe, recognized for their ability to capture linguistic regularities. In this paper, we demonstrate a {\em very simple}, and yet counter-intuitive, postprocessing technique -- eliminate the common mean vector and a few top dominating directions from the word vectors -- that renders off-the-shelf representations {\em even stronger}. The postprocessing is empirically validated on a variety of lexical-level intrinsic tasks (word similarity, concept categorization, word analogy) and sentence-level tasks (semantic textural similarity and { text classification}) on multiple datasets and with a variety of representation methods and hyperparameter choices in multiple languages; in each case, the processed representations are consistently better than the original ones.
研究动机与目标
- 激发并证明一个简单的后处理步骤可以提升现成的词表示,在不同语言和方法上都有效。
- 识别并量化词向量中的常见结构特性(非零均值和占优方向)。
- 证明去除这些分量可获得更具各向同性的嵌入,并改善语言规律性。
提出的方法
- 对所有词表示计算均值向量,并从每个词向量中减去它。
- 对均值居中的向量执行 PCA,以获得前 D 个主导方向。
- 将每个词向量投影到远离前 D 个 PCA 方向的位置,以获得后处理后的向量。
- 提供一个启发式:选择 D ≈ d/100,其中 d 是向量维度,并在不同语言和嵌入方法上进行验证。
实验结果
研究问题
- RQ1词嵌入中的常见均值和占优方向是否会削弱语言规律性,去除它们是否能一致地提升表现?
- RQ2后处理对内在任务(词相似性、分类、类比)和外在任务(语义文本相似性、文本分类、句子建模)有何影响?
- RQ3所提出的强制各向同性的后处理在不同语言、嵌入方法和下游体系结构中是否具有鲁棒性?
主要发现
- 后处理在七个词相似性数据集上与 WORD2VEC 和 GloVe 一致地带来改进(平均提升约 2.3%)。
- 概念分类在后处理后,在三个数据集上平均获得约 2.5–4.5% 的提升。
- 词类比显示出改进,尽管较小,尤其在语义/句法子集上,因为类比中的抵消效应。
- 语义文本相似性(STS)在使用平均词向量得到的句子表示时,21 个数据集的平均提升约 4%。
- 神经网络文本分类(CNN 和 RNN 变体)在多种设置中受益,若干配置的平均提升约 2–3%。
- 后处理在多数据集和多种架构下的情感分类任务中占比多数情形获得提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。