Skip to main content
QUICK REVIEW

[论文解读] Rethinking Inter-Process Communication with Memory Operation Offloading

Misun Park, Richi Dubey|arXiv (Cornell University)|Jan 9, 2026
Parallel Computing and Optimization Techniques被引用 0
一句话总结

Rocket 是一个 IPC 运行时,将硬件和软件层面的内存换出结合到共享内存 IPC,减少指令计数并改善数据密集型同节点内工作负载的吞吐量和延迟。

ABSTRACT

As multimodal and AI-driven services exchange hundreds of megabytes per request, existing IPC runtimes spend a growing share of CPU cycles on memory copies. Although both hardware and software mechanisms are exploring memory offloading, current IPC stacks lack a unified runtime model to coordinate them effectively. This paper presents a unified IPC runtime suite that integrates both hardware- and software-based memory offloading into shared-memory communication. The system characterizes the interaction between offload strategies and IPC execution, including synchronization, cache visibility, and concurrency, and introduces multiple IPC modes that balance throughput, latency, and CPU efficiency. Through asynchronous pipelining, selective cache injection, and hybrid coordination, the system turns offloading from a device-specific feature into a general system capability. Evaluations on real-world workloads show instruction count reductions of up to 22%, throughput improvements of up to 2.1x, and latency reductions of up to 72%, demonstrating that coordinated IPC offloading can deliver tangible end-to-end efficiency gains in modern data-intensive systems.

研究动机与目标

  • 由于多模态/人工智能工作负载中的数据移动增长,强调内存换出感知的 IPC 的必要性。
  • 研究硬件内存换出(如 Intel DSA)如何与 IPC 运行时及缓存行为互动。
  • 设计一个协调整理换出策略与 IPC 执行的软件运行时(Rocket),以提高效率。
  • 在真实工作负载上评估 Rocket,量化数据密集型流水线的端到端增益。

提出的方法

  • 对硬件辅助内存换出在 IPC 中的系统级瓶颈进行特征化(缓存、同步、页错误)。
  • 设计 Rocket,采用共享内存 IPC 协议、异步分批处理和 CPU-DSA 重叠。
  • 提供可配置的执行模式(同步、异步、流水线)和缓存注入选项。
  • 使用混合轮询策略(UMWAIT + 面积感知延迟)以在延迟与 CPU 开销之间取得平衡。
  • 复用持久化的共享内存区域,避免页错误并实现 DSA 传输。
  • 在具备 Intel DSA 的硬件上,结合具有代表性的工作负载,用面向换出决策的高级 API 对 Rocket 进行评估。

实验结果

研究问题

  • RQ1换出策略如何在共享内存流水线中的 IPC 执行中互动?
  • RQ2决定 IPC 换出有效性的关键瓶颈(缓存、同步、页错误)是什么?
  • RQ3一个可配置的 IPC 运行时是否能协调硬件换出以在不产生过高 CPU 使用的情况下实现更低延迟和更高吞吐量?
  • RQ4哪些实际的设计选择(模式、缓存注入、分批处理)能为数据密集型 IPC 工作负载带来端到端的增益?

主要发现

  • Rocket 将指令数量减少最多 22%。
  • 与 CPU 基线相比,Rocket 的吞吐量提高最多 2.1×。
  • 对于数据密集型 IPC 工作负载,Rocket 的延迟降低最多 72%。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。