Skip to main content
QUICK REVIEW

[论文解读] Hashing Algorithms for Large-Scale Learning

Ping Li, Anshumali Shrivastava|arXiv (Cornell University)|Jun 6, 2011
Advanced Image and Video Retrieval Techniques参考文献 36被引用 105
一句话总结

本文提出b-bit minwise hashing作为一种紧凑、内存高效的表示方法,用于大规模二值高维数据集,通过将非线性相似度核转换为线性内积,实现与线性SVM和逻辑回归的无缝集成。实验表明,在相同存储成本下,b-bit hashing在准确率上优于Vowpal Wabbit和随机投影,且当b ≥ 16时,与VW结合可进一步加速训练。

ABSTRACT

In this paper, we first demonstrate that b-bit minwise hashing, whose estimators are positive definite kernels, can be naturally integrated with learning algorithms such as SVM and logistic regression. We adopt a simple scheme to transform the nonlinear (resemblance) kernel into linear (inner product) kernel; and hence large-scale problems can be solved extremely efficiently. Our method provides a simple effective solution to large-scale learning in massive and extremely high-dimensional datasets, especially when data do not fit in memory. We then compare b-bit minwise hashing with the Vowpal Wabbit (VW) algorithm (which is related the Count-Min (CM) sketch). Interestingly, VW has the same variances as random projections. Our theoretical and empirical comparisons illustrate that usually $b$-bit minwise hashing is significantly more accurate (at the same storage) than VW (and random projections) in binary data. Furthermore, $b$-bit minwise hashing can be combined with VW to achieve further improvements in terms of training speed, especially when $b$ is large.

研究动机与目标

  • 解决在主内存容量不足以容纳数据集时,大规模机器学习模型训练中的内存瓶颈问题。
  • 实现在大规模、高维二值数据上对线性SVM和逻辑回归的高效训练。
  • 通过b-bit minwise hashing提供一个理论基础坚实、正定的核表示,供学习算法使用。
  • 在准确率和训练效率方面,将b-bit minwise hashing与Vowpal Wabbit和随机投影进行比较。
  • 探索结合b-bit hashing与VW的混合方法,以在不损失准确率的前提下优化训练速度。

提出的方法

  • 应用b-bit minwise hashing生成高维二值向量的紧凑、低维表示,同时保持相似度估计的准确性。
  • 证明b-bit minwise hashing矩阵为正定矩阵,使其可作为SVM和逻辑回归中的有效核使用。
  • 通过一种简单方案将非线性相似度核转换为线性内积,从而允许高效线性求解器的应用。
  • 理论分析表明,当m ≫ k且m ≪ 2^b k时,b-bit hashing的方差低于随机投影和VW。
  • 提出一种混合方法:在b-bit minwise hashing基础上应用VW哈希,以在保持准确率的同时减少训练时间。
  • 采用单次遍历、可并行化的预处理步骤生成哈希向量,最大限度减少I/O开销,并支持在多个学习任务中重复使用。

实验结果

研究问题

  • RQ1b-bit minwise hashing能否作为正定核使用,以实现线性SVM和逻辑回归的高效训练?
  • RQ2在相同存储成本下,b-bit minwise hashing与Vowpal Wabbit和随机投影相比,其准确率如何?
  • RQ3在最小化方差和训练时间的前提下,哈希表数量(m)与位长度(b)之间的最优权衡是什么?
  • RQ4将b-bit minwise hashing与VW结合是否能进一步提升训练速度而不降低模型准确率?
  • RQ5在大规模学习中,b-bit hashing的预处理成本在何种条件下可忽略不计,相较于I/O和计算开销?

主要发现

  • b-bit minwise hashing生成的核为正定核,为其在SVM和逻辑回归中的应用提供了坚实的理论基础。
  • 在相同存储成本下,b-bit minwise hashing在二值数据上的准确率显著优于Vowpal Wabbit和随机投影。
  • 当b = 16时,在b-bit哈希基础上叠加m = 2^8k的VW哈希,可达到与直接b-bit哈希相同的测试准确率,但训练时间大幅减少。
  • 当b = 8时,与VW结合无法进一步提升性能,因为方差已足够低,增益可忽略。
  • 当b ≥ 16时,b-bit哈希与VW结合的混合方法最为有效,此时训练速度的提升最为显著。
  • b-bit minwise hashing的预处理成本通常可忽略不计,因其仅需一次数据扫描,且可轻松并行化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。