[论文解读] Dimension Independent Similarity Computation
本文提出 DISCO,一种维度无关的框架,通过在 MapReduce 中高效采样,实现对高维稀疏向量之间成对相似度(余弦、Jaccard、Dice、重叠)的计算。该方法使 shuffle 大小和 reduce-key 复杂度与维度 N 无关,通信成本最高降低 99.8%,同时确保高相似度对的估计精度更高,在 Twitter 数据上经过大规模验证并已投入生产环境使用。
We present a suite of algorithms for Dimension Independent Similarity Computation (DISCO) to compute all pairwise similarities between very high dimensional sparse vectors. All of our results are provably independent of dimension, meaning apart from the initial cost of trivially reading in the data, all subsequent operations are independent of the dimension, thus the dimension can be very large. We study Cosine, Dice, Overlap, and the Jaccard similarity measures. For Jaccard similiarity we include an improved version of MinHash. Our results are geared toward the MapReduce framework. We empirically validate our theorems at large scale using data from the social networking site Twitter. At time of writing, our algorithms are live in production at twitter.com.
研究动机与目标
- 解决在高维稀疏向量空间中计算所有成对相似度时的可扩展性挑战,传统方法在维度 N 增大时性能急剧下降。
- 设计一种基于采样的框架,实现与维度 N 无关的计算复杂度,使大规模数据集上的处理成为可能。
- 通过利用与维度无关的误差界,确保高度相似对的高精度,这对协同过滤和关键词扩展等应用至关重要。
- 提供一种实用且可投入生产的解决方案,可在 MapReduce 等分布式系统中部署,并在真实世界的 Twitter 数据上完成验证。
提出的方法
- DISCO 框架采用一种新颖的采样策略,根据向量条目的大小以及已知向量范数的背景模型进行采样,实现与维度无关的计算。
- 针对每种相似度度量(余弦、Dice、重叠、Jaccard),该方法构建了期望值等于真实相似度的估计器,其方差通过采样参数进行控制。
- 提出一种改进的 MinHash 变体用于 Jaccard 相似度,理论分析表明其能紧密模拟标准 MinHash,同时支持与维度无关的处理。
- 该框架运行于 MapReduce 模型下,通过确保每个 reducer 每个 key 仅接收 O(log D / ε) 个值,将 shuffle 大小和 reduce-key 复杂度降至与 N 无关。
- 采样方案设计为使高相似度对的估计误差更低,因此特别适合基于阈值的相似度搜索。
- 使用背景模型存储已知的向量大小,避免重复计算,其流式扩展仅增加对数级别的内存开销。
实验结果
研究问题
- RQ1是否可以实现所有成对相似度计算在理论上与数据维度 N 无关,同时保持高精度?
- RQ2是否可以将 MapReduce 中的 shuffle 大小和 reduce-key 复杂度降低至与维度 N 无关,而不损失精度?
- RQ3该采样策略是否能提升高度相似对的估计精度,以满足协同过滤等实际应用的需求?
- RQ4该框架是否能通过统一且可扩展的方法推广到多种相似度度量(余弦、Jaccard、Dice、重叠)?
- RQ5该框架在真实世界、高维数据上的大规模场景(如 Twitter 用户关注图)中实际表现如何?
主要发现
- DISCO 框架将 shuffle 大小降低至 O(DL log D / ε),与维度 N 无关,在 Twitter 规模数据上相比朴素的 O(NL²) 方法最高降低 99.8%。
- 每个 key 的 reduce-key 复杂度被限制在 O(log D / ε) 以内,即使在超大规模数据集上也具有可行性,且完全不依赖于 N。
- 所有相似度度量(余弦、Dice、重叠、Jaccard)的误差随相似度提升而减小,对相似度 ≥ ε 的对,误差在 shuffle 大小降低 99.8% 的情况下也相应减少。
- DISCO 中改进的 MinHash 变体与标准 MinHash 非常接近,理论边界证实了其精度和维度无关性。
- 在 Twitter 数据上的实证结果表明,DISCO 在大幅降低通信成本的同时保持了高精度,其结果在子集上与真实值对比验证有效。
- 该框架已在 Twitter.com 生产环境中部署,证明了其在真实系统中用于用户相似度计算和关键词建议的可扩展性与实用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。