QUICK REVIEW

[论文解读] Parallel Model Counting with CUDA: Algorithm Engineering for Efficient Hardware Utilization

Jeffrey M. Dudek, Moshe Y. Vardi|arXiv (Cornell University)|Jun 28, 2020

Tensor decomposition and applications参考文献 64被引用 8

一句话总结

本文提出 TensorOrder2，一种利用多核 CPU 和 GPU 的并行加权模型计数器，通过树分解求解器组合与基于 TensorFlow 的张量收缩实现。通过结合并行规划与经索引切片优化的 GPU 加速执行，TensorOrder2 在预处理后于 11% 的基准测试中优于现有计数器，并取得第二低的 PAR-2 得分，证明其作为组合求解器策略的一部分具有高效性。

ABSTRACT

A promising new algebraic approach to weighted model counting makes use of tensor networks, following a reduction from weighted model counting to tensor-network contraction. Prior work has focused on analyzing the single-core performance of this approach, and demonstrated that it is an effective addition to the current portfolio of weighted-model-counting algorithms. In this work, we explore the impact of multi-core and GPU use on tensor-network contraction for weighted model counting. To leverage multiple cores, we implement a parallel portfolio of tree-decomposition solvers to find an order to contract tensors. To leverage a GPU, we use TensorFlow to perform the contractions. We compare the resulting weighted model counter on 1914 standard weighted model counting benchmarks and show that it significantly improves the virtual best solver.

研究动机与目标

通过利用现代并行与 GPU 硬件，提升基于张量网络的加权模型计数性能。
通过 TensorFlow 和索引切片实现高效的 GPU 执行，解决张量网络收缩中的瓶颈。
通过引入并行树分解求解器组合，提升规划效率，优于单核方法。
评估多核与 GPU 加速对完整加权模型计数流程（包括预处理与执行阶段）的影响。
证明所提出的系统 TensorOrder2 是最先进加权模型计数器组合中的有力补充。

提出的方法

使用单核树分解求解器组合（如 Tamaki、FlowCutter、htd、Hicks）加速张量网络收缩的规划阶段。
通过 TensorFlow 将张量收缩卸载至 GPU，实现在大规模张量网络上的高吞吐量计算。
实现索引切片以减少 GPU 内存使用，代价是计算时间增加，从而支持更大规模实例的处理。
采用性能因子优化策略，以在不同硬件配置（CPU1、CPU8、GPU）下调优执行性能。
采用三阶段算法：(1) 将加权模型计数简化为张量网络收缩，(2) 通过求解器规划收缩顺序，(3) 使用 TensorFlow 实现 GPU 加速执行。
框架支持与 pmc-eq 预处理器集成，显著提升在困难基准测试中的性能。

实验结果

研究问题

RQ1与单核求解器相比，树分解求解器的并行组合能否显著提升规划性能？
RQ2使用 TensorFlow 和索引切片进行 GPU 加速是否能在加权模型计数的张量网络收缩中带来可测量的速度提升？
RQ3在有无预处理的情况下，所提出的 TensorOrder2 与最先进计数器相比性能如何？
RQ4分支分解求解器能否有效集成到组合中，并提升整体性能？
RQ5在多样化基准测试中，最大化求解器效率的最优硬件配置与性能因子是什么？

主要发现

在预处理后，使用 P4 组合与 GPU 配置的 TensorOrder2 成功解决了 1,549 个基准中的 1,914 个，总解决数量排名第二，PAR-2 得分也排名第二。
P4+GPU 配置在 200 个预处理后的基准和 158 个未预处理的基准中表现最快，优于所有其他计数器。
索引切片显著降低了内存使用，使更大规模实例可在 GPU 上执行，尽管引入了时间开销，但在困难基准上被 GPU 速度提升所抵消。
并行树分解求解器组合（P4）相比单核求解器显著缩短了规划时间，其中 P4+CPU8 配置在规划阶段表现最佳。
尽管分支分解求解器在理论上可集成至组合中，但其实际影响微乎其微，未显著提升整体求解质量。
GPU 配置在执行阶段实现了最高加速比，尤其在困难基准上表现突出，而 CPU 并行化在规划阶段仅带来微小增益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。