[论文解读] Stochastic Shared Embeddings: Data-driven Regularization of Embedding Layers
本文提出随机共享嵌入(SSE),一种数据驱动的正则化方法,用于神经网络嵌入层,该方法在SGD训练过程中随机切换共享嵌入。通过减少过拟合——尤其在结合权重衰减和Dropout时——SSE在从推荐系统到BERT的多样化任务中提升了泛化性能,具有理论保证和六个基准的实证验证。
In deep neural nets, lower level embedding layers account for a large portion of the total number of parameters. Tikhonov regularization, graph-based regularization, and hard parameter sharing are approaches that introduce explicit biases into training in a hope to reduce statistical complexity. Alternatively, we propose stochastically shared embeddings (SSE), a data-driven approach to regularizing embedding layers, which stochastically transitions between embeddings during stochastic gradient descent (SGD). Because SSE integrates seamlessly with existing SGD algorithms, it can be used with only minor modifications when training large scale neural networks. We develop two versions of SSE: SSE-Graph using knowledge graphs of embeddings; SSE-SE using no prior information. We provide theoretical guarantees for our method and show its empirical effectiveness on 6 distinct tasks, from simple neural networks with one hidden layer in recommender systems, to the transformer and BERT in natural languages. We find that when used along with widely-used regularization methods such as weight decay and dropout, our proposed SSE can further reduce overfitting, which often leads to more favorable generalization results.
研究动机与目标
- 解决由于大尺寸嵌入层参数众多而引起的高统计复杂度和过拟合风险。
- 开发一种正则化方法,以减少模型复杂度,且不依赖强归纳偏置或先验结构假设。
- 设计一种可无缝集成到标准SGD训练流程中,并与现有正则化技术(如权重衰减和Dropout)兼容的方法。
- 通过实证验证SSE在多样化架构和任务(包括Transformer和BERT)中的有效性。
提出的方法
- SSE在SGD训练过程中引入嵌入向量在不同输入标记或类别间动态共享的随机转换机制。
- SSE-Graph利用外部知识图谱引导随机共享过程,编码嵌入之间的语义或结构关系。
- SSE-SE无需先验知识,通过随机切换机制直接从数据中学习共享表示。
- 该方法设计为与标准SGD兼容,对模型架构或训练流程的修改极少。
- 理论分析提供了支持随机共享正则化效果的一般化边界。
- 该方法在优化过程中通过动态共享降低有效参数数量,同时保持模型容量。
实验结果
研究问题
- RQ1嵌入层中基于数据驱动的随机共享机制是否能减少过拟合并提升深度神经网络的泛化性能?
- RQ2当与权重衰减和Dropout等传统正则化方法结合使用时,SSE的表现如何?
- RQ3在SSE-Graph中使用知识图谱是否相比仅依赖数据驱动共享的SSE-SE提升性能?
- RQ4SSE在包括前馈网络、Transformer和BERT在内的多样化架构中,能在多大程度上提升泛化性能?
主要发现
- SSE在与权重衰减和Dropout等标准正则化技术结合使用时,能有效减少过拟合并提升泛化性能。
- 该方法在六项不同任务中均表现出优异的泛化性能,涵盖从单隐藏层网络到BERT等复杂模型。
- 在存在外部语义关系的任务中,使用知识图谱的SSE-Graph相比仅依赖数据驱动共享的SSE-SE表现出更优性能。
- 理论分析证实,SSE通过降低嵌入层的有效统计复杂度,提供了泛化保证。
- SSE可与标准SGD平滑集成,对现有训练流程的修改极少。
- 实证结果表明测试性能持续提升,表明随机共享能有效正则化嵌入层。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。