QUICK REVIEW

[论文解读] No Training Required: Exploring Random Encoders for Sentence Classification

John Wieting, Douwe Kiela|arXiv (Cornell University)|Jan 29, 2019

Topic Modeling被引用 75

一句话总结

本文表明，基于预训练词向量构建的随机编码器在句子分类任务上可以达到具有竞争力的性能，常接近或媲美经过训练的编码器，凸显强基线并提出鲁棒的评估实践。

ABSTRACT

We explore various methods for computing sentence representations from pre-trained word embeddings without any training, i.e., using nothing but random parameterizations. Our aim is to put sentence embeddings on more solid footing by 1) looking at how much modern sentence embeddings gain over random methods---as it turns out, surprisingly little; and by 2) providing the field with more appropriate baselines going forward---which are, as it turns out, quite strong. We also make important observations about proper experimental protocol for sentence classification evaluation, together with recommendations for future research.

研究动机与目标

评估在不对编码器进行训练的情况下，随机编码器能把句子分类准确率提升到多高。
将随机编码器与有监督和无监督训练的句子编码器进行基准对比。
提供稳健的基线和实际的句子表征评估建议。
强调公平比较的实验协议注意事项。

提出的方法

将评估三种随机编码架构：Bag of Random Embedding Projections (BOREP)、Random LSTMs，以及 Echo State Networks (ESN)。
句子表征由预训练的词嵌入构成，编码器参数不进行更新；仅训练转移逻辑回归分类器。
投射和网络以随机初始化（遵循标准的 Glorot 风格界限），并通过池化（如均值、最大值或求和）形成定长句子向量。
使用 SentEval 对一组下游任务（十个任务）和探针任务进行评估，以分析语言属性。
与 InferSent 和 SkipThought 基线进行比较，维度匹配为 4096（BOE 为 300）。
通过改变维度来研究 Cover 定理对性能的影响。

实验结果

研究问题

RQ1随机、未训练的编码器在标准迁移任务中能达到多接近受训句子编码器的水平？
RQ2哪些基线能最好地反映预训练词嵌入和随机投影在句子表征中的价值？
RQ3编码器维度如何影响下游任务与探针任务的性能？
RQ4为公正评估句子表征，哪些实验协议注意事项是必需的？

主要发现

随机编码器通常超越简单的 BOE 基线，ESN 在随机方法中取得了最佳的平均结果。
与 InferSent 和 SkipThought 相比，随机编码器的性能具有竞争力，随机方法的平均提升较为温和（在大多数任务上平均通常不到 2 分）。
增加维度（例如到 4096 及更高）往往提升随机编码器的性能，这与 Cover 定理的预测一致。
探针任务显示随机模型能捕获顺序信息以及一些句法/语义线索，但在某些细微的语义任务上，训练过的编码器表现更优。
适当的基线（如 BOREP）和一致的评估设置对于公正比较和对编码器增益的可信主张至关重要。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。