QUICK REVIEW

[论文解读] Submodular Streaming in All its Glory: Tight Approximation, Minimum Memory and Low Adaptive Complexity

Ehsan Kazemi, Marko Mitrovic|arXiv (Cornell University)|May 2, 2019

Complexity and Algorithms in Graphs参考文献 39被引用 31

一句话总结

该论文提出Sieve-Streaming++，一种单遍流算法，通过仅使用$O(k)$内存，在基数约束$k$下实现了单调子模最大化问题的紧致$\frac{1}{2}$-近似——填补了最优近似与最小内存之间的空白。它通过缓冲流的小部分并应用并行过滤，进一步降低了自适应复杂度，实现在低轮次、高效率计算的同时，保持单源与多源流设置下的最优近似与内存界限。

ABSTRACT

Streaming algorithms are generally judged by the quality of their solution, memory footprint, and computational complexity. In this paper, we study the problem of maximizing a monotone submodular function in the streaming setting with a cardinality constraint $k$. We first propose Sieve-Streaming++, which requires just one pass over the data, keeps only $O(k)$ elements and achieves the tight $(1/2)$-approximation guarantee. The best previously known streaming algorithms either achieve a suboptimal $(1/4)$-approximation with $Θ(k)$ memory or the optimal $(1/2)$-approximation with $O(k\log k)$ memory. Next, we show that by buffering a small fraction of the stream and applying a careful filtering procedure, one can heavily reduce the number of adaptive computational rounds, thus substantially lowering the computational complexity of Sieve-Streaming++. We then generalize our results to the more challenging multi-source streaming setting. We show how one can achieve the tight $(1/2)$-approximation guarantee with $O(k)$ shared memory while minimizing not only the required rounds of computations but also the total number of communicated bits. Finally, we demonstrate the efficiency of our algorithms on real-world data summarization tasks for multi-source streams of tweets and of YouTube videos.

研究动机与目标

在流式子模最大化中，弥合最优近似因子($\frac{1}{2}$)与最小内存复杂度($O(k)$)之间的差距。
降低流式子模算法的自适应复杂度，因为目前的算法由于每个元素的Oracle查询而需要$\Omega(n)$轮。
将该框架扩展至多源流设置，实现最小共享内存、低通信成本与近似最优的自适应性。
将该方法推广至相关问题，如删除鲁棒性、两阶段及弱子模最大化，以改善内存复杂度。
在真实世界数据流（包括推文与YouTube视频）上展示其实用效率。

提出的方法

提出Sieve-Streaming++作为单遍算法，仅维护$O(k)$个元素，并通过一种新颖的过滤机制实现$\frac{1}{2}$-近似。
引入缓冲策略，允许在小数据窗口上并行执行Oracle查询，将自适应轮次从$\Omega(n)$减少至$O(1)$或$O(\log k)$。
采用值估计技术来估算$\texttt{OPT}$，而无需存储所有元素，从而在保持近似保证的同时实现内存减少。
通过共享内存与通信高效的过滤，实现多源扩展，保持$O(k)$内存与$O(1)$通信轮次。
采用混合模型，结合流处理与批处理，降低自适应性，同时保持最优近似与内存性能。
通过调整值估计与过滤组件，将该框架推广至弱子模、删除鲁棒性及两阶段子模最大化问题。

实验结果

研究问题

RQ1能否设计一种流算法，在仅$O(k)$内存下实现紧致$\frac{1}{2}$-近似，从而解决先前工作遗留的空白？
RQ2能否将流式子模最大化算法的自适应复杂度从$\Omega(n)$降低至常数或对数轮次？
RQ3该框架能否扩展至多源流设置，实现最小共享内存与低通信成本？
RQ4能否将值估计与过滤的核心思想推广至其他子模最大化变体，以改善内存复杂度？
RQ5该算法在高吞吐量与异构性较强的真实世界数据流上表现如何？

主要发现

Sieve-Streaming++仅使用$O(k)$内存即实现了紧致$\frac{1}{2}$-近似，解决了流式子模最大化中长期存在的开放问题。
通过缓冲流的小部分并支持并行Oracle查询，该算法将自适应复杂度降低至$O(\log k)$轮。
在多源设置下，该算法保持$O(k)$共享内存、$O(1)$通信轮次与$O(k)$总通信比特数。
该方法将删除鲁棒性子模最大化问题的内存复杂度从$O(kd\log k/\varepsilon)$降低至$O(kd/\varepsilon)$，同时保持相同的近似因子。
对于弱子模函数，内存复杂度从$O(k\log k/\varepsilon)$降低至$O(k/\varepsilon)$，同时维持常数因子近似。
在推文与YouTube视频流上的实证评估证实了该算法在效率、可扩展性与实际性能方面优于以往方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。