QUICK REVIEW

[论文解读] Approximate Selection with Unreliable Comparisons in Optimal Expected Time

Shengyu Huang, Chih-Hung Liu|arXiv (Cornell University)|May 3, 2022

Machine Learning and Algorithms被引用 2

一句话总结

本文提出了一种在不可靠比较下的近似选择的随机化算法，其中每次比较独立地以恒定概率失败。该算法在期望时间 O(k/(nε²) log(1/Q)) 内完成，以至少 1−Q 的成功概率选出排名在 (k−nε, k+nε] 范围内的元素，并证明了匹配的下界，从而在高概率保证下清晰地揭示了近似最小值与第 k 小元素之间的复杂度差距。

ABSTRACT

Given $n$ elements, an integer $k$ and a parameter $\varepsilon$, we study to select an element with rank in $(k-n\varepsilon,k+n\varepsilon]$ using unreliable comparisons where the outcome of each comparison is incorrect independently with a constant error probability, and multiple comparisons between the same pair of elements are independent. In this fault model, the fundamental problems of finding the minimum, selecting the $k$-th smallest element and sorting have been shown to require $Θ\big(n \log \frac{1}{Q}\big)$, $Θ\big(n\log \frac{\min\{k,n-k\}}{Q}\big)$ and $Θ\big(n\log \frac{n}{Q}\big)$ comparisons, respectively, to achieve success probability $1-Q$. Recently, Leucci and Liu proved that the approximate minimum selection problem ($k=0$) requires expected $Θ(\varepsilon^{-1}\log \frac{1}{Q})$ comparisons. We develop a randomized algorithm that performs expected $O(\frac{k}{n}\varepsilon^{-2} \log \frac{1}{Q})$ comparisons to achieve success probability at least $1-Q$. We also prove that any randomized algorithm with success probability at least $1-Q$ performs expected $Ω(\frac{k}{n}\varepsilon^{-2}\log \frac{1}{Q})$ comparisons. Our results indicate a clear distinction between approximating the minimum and approximating the $k$-th smallest element, which holds even for the high probability guarantee, e.g., if $k=\frac{n}{2}$ and $Q=\frac{1}{n}$, $Θ(\varepsilon^{-1}\log n)$ versus $Θ(\varepsilon^{-2}\log n)$. Moreover, if $\varepsilon=n^{-α}$ for $α\in (0,\frac{1}{2})$, the asymptotic difference is almost quadratic, i.e., $ ildeΘ(n^α)$ versus $ ildeΘ(n^{2α})$.

研究动机与目标

研究在比较以恒定概率独立失败的故障模型下，近似选择的复杂度。
确定在此故障模型下，近似最小值与第 k 小元素之间是否存在根本性的复杂度差距。
设计一种随机化算法，实现在高成功概率下对近似 k-选择问题的最优期望比较复杂度。
通过信息论论证和尾概率分析，证明匹配的下界，从而确立所提算法的最优性。

提出的方法

设计一种随机化算法，采样 m = Θ(k/(nε²) log(1/Q)) 个元素，并在样本上应用选择算法以找到近似第 k 小的元素。
利用集中不等式和超几何尾部不等式，确保所采样元素的排名在 (k−nε, k+nε] 范围内的概率较高。
利用 Kullback-Leibler 散度和熵不等式，推导出超几何随机变量的紧致尾部概率估计。
通过精细分析超几何尾部，界定失败概率并推导出最优的 O(k/(nε²) log(1/Q)) 期望比较次数。
使用信息论论证和尾部概率分析，证明匹配的 Ω(k/(nε²) log(1/Q)) 下界。
利用一个副产品确定性算法，其比较次数为 O(k/(nε²) log(1/Q) + (log(1/Q))(log log(1/Q))²)，当 k/(nε²) = Ω((log log(1/Q))²) 时达到最优。

实验结果

研究问题

RQ1在不可靠比较下，近似最小值选择与近似第 k 小元素选择之间是否存在显著的复杂度差距？
RQ2近似 k-选择是否能在期望 O(k/(nε²) log(1/Q)) 次比较内以 1−Q 的成功概率求解？
RQ3即使在高概率保证（如 Q=1/n）下，近似选择的复杂度是否仍因 k 的依赖关系而与最小值选择区分开来？
RQ4比较次数中的 log(1/Q) 项是否可以如近似最小值情况一样，无需额外的对数因子实现？
RQ5在此故障模型下，近似 k-选择的最优确定性比较复杂度是多少？

主要发现

所提出的随机化算法在期望 O(k/(nε²) log(1/Q)) 次比较内求解 FT-APX(k, ε) 问题，成功概率至少为 1−Q。
证明了匹配的下界 Ω(k/(nε²) log(1/Q))，从而确立了该算法的最优性。
在相同故障模型下，近似最小值（Θ(ε⁻¹ log(1/Q))) 与第 k 小元素（Θ(ε⁻² log(1/Q))) 之间存在清晰的复杂度差异。
当 k = n/2 且 Q = 1/n 时，复杂度差距为 Θ(ε⁻¹ log n) 与 Θ(ε⁻² log n)，当 ε = n⁻α（α ∈ (0, 1/2)）时，表现出二次渐近差异。
提供了一种确定性算法，其比较次数为 O(k/(nε²) log(1/Q) + (log(1/Q))(log log(1/Q))²)，当 k/(nε²) = Ω((log log(1/Q))²) 时达到最优。
分析依赖于使用 Kullback-Leibler 散度和熵不等式推导出的紧致超几何尾部界限，从而获得最优比较次数。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。