QUICK REVIEW

[论文解读] Deep Networks With Large Output Spaces

Sudheendra Vijayanarasimhan, Jonathon Shlens|arXiv (Cornell University)|Dec 23, 2014

Advanced Image and Video Retrieval Techniques参考文献 10被引用 31

一句话总结

本文提出一种基于局部敏感哈希（LSH）的方法，通过近似最终分类层中计算成本高昂的点积操作，加速具有数百万个输出类别的深度神经网络的训练与推理。通过哈希权重向量并仅计算与最近邻的点积，该方法在视频识别等高基数任务中实现了比标准Softmax和分层Softmax更快的收敛速度和更高的准确率。

ABSTRACT

Deep neural networks have been extremely successful at various image, speech, video recognition tasks because of their ability to model deep structures within the data. However, they are still prohibitively expensive to train and apply for problems containing millions of classes in the output layer. Based on the observation that the key computation common to most neural network layers is a vector/matrix product, we propose a fast locality-sensitive hashing technique to approximate the actual dot product enabling us to scale up the training and inference to millions of output classes. We evaluate our technique on three diverse large-scale recognition tasks and show that our approach can train large-scale models at a faster rate (in terms of steps/total time) compared to baseline methods.

研究动机与目标

解决训练和推理具有数百万个输出类别的深度网络时的计算瓶颈问题。
实现大规模识别任务（如图像分类、视频识别和推荐系统）的可扩展深度学习。
在不造成显著准确率损失的前提下，降低最终分类层的时间复杂度。
探索使用哈希近似深度网络中矩阵-向量乘积的可行性。
证明基于top-k哈希的方法在训练速度和模型准确率方面优于传统的Softmax和分层Softmax。

提出的方法

提出一种基于哈希的近似方法，用于近似最终层中输入激活与输出权重之间的点积。
为每个输出权重向量计算二进制哈希码，并将它们存储在哈希表中以实现快速查找。
在推理阶段，为输入激活计算哈希码，并仅根据哈希相似性检索最接近的k个输出节点。
仅对检索到的top-k节点执行精确点积，其余所有节点设为零，以减少计算量。
在训练过程中应用相同的哈希技术，通过仅对top-k参数进行更新来加速梯度更新。
使用一种WTA（赢家通吃）Softmax变体，仅利用最相关的top-k个输出节点来近似完整Softmax。

实验结果

研究问题

RQ1局部敏感哈希能否有效用于近似大规模输出空间的深度网络最终层中的点积？
RQ2所提出的基于哈希的方法在训练速度和模型准确率方面与标准Softmax和分层Softmax相比表现如何？
RQ3该方法在具有数百万个类别的任务（如视频识别或大规模图像分类）中是否具备良好的可扩展性？
RQ4在何种条件下，基于哈希的top-k近似方法优于完整Softmax或分层Softmax？
RQ5数据集的特征紧凑性（类内方差）如何影响基于哈希方法的性能？

主要发现

在skipgram数据集上，尽管处理的训练样本更少，WTA Softmax模型的precision@50（16.5%）和precision@100（18.5%）均高于分层Softmax。
在Sports 1M视频识别任务中，WTA模型每步训练速度比标准Softmax快4倍，且准确率高于两个基线模型。
WTA模型的每步时间比标准Softmax低4倍，尽管比分层Softmax慢4倍（因每步计算量更高），但最终准确率仍更优。
Sports 1M数据集的特征类内方差显著低于ImageNet-21K，解释了为何top-k近似在视频数据上表现更佳。
该方法通过将所需点积数量从O(N)降低至O(K)（其中K << N），实现了对包含数百万个类别的大规模模型的训练。
当特征空间紧凑（类内方差低）时，如视频或序列数据，该方法尤为有效，因为最近邻更具代表性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。