[论文解读] AI-coupled HPC Workflow Applications, Middleware and Performance
一项调查将 AI–HPC 工作流分为六种执行模式,分析耦合模式、框架、性能挑战,以及面向 AI 驱动的 HPC 系统的未解研究问题。
AI integration is revolutionizing the landscape of HPC simulations, enhancing the importance, use, and performance of AI-driven HPC workflows. This paper surveys the diverse and rapidly evolving field of AI-driven HPC and provides a common conceptual basis for understanding AI-driven HPC workflows. Specifically, we use insights from different modes of coupling AI into HPC workflows to propose six execution motifs most commonly found in scientific applications. The proposed set of execution motifs is by definition incomplete and evolving. However, they allow us to analyze the primary performance challenges underpinning AI-driven HPC workflows. We close with a listing of open challenges, research issues, and suggested areas of investigation including the the need for specific benchmarks that will help evaluate and improve the execution of AI-driven HPC workflows.
研究动机与目标
- 建立一个用于理解 AI 驱动的 HPC 工作流的共同概念基础。
- 识别并描述 AI–HPC 交互模式的常见执行模式。
- 调查支持 AI–HPC 耦合 的现有框架与库。
- 分析 AI 驱动的 HPC 工作流中的性能与系统挑战。
- 概述推动 AI–HPC 工作流发展的未解决挑战与研究方向。
提出的方法
- 定义 AI–HPC 耦合模式(AI-in-HPC、AI-out-HPC、AI-about-HPC)并提出六种执行模式。
- 描述每种模式的特征,重点关注交互、耦合、并发性、动态性和联盟化(federation)。
- 总结代表性的框架和库,这些框架/库支持 AI–HPC 集成,并将它们映射到相应的模式。
- 按模式(如负载均衡、数据流等)讨论性能瓶颈与系统挑战。
- 提出未解决的问题与建议的研究方向,包括对 AI 驱动的 HPC 工作流基准测试的需求。

实验结果
研究问题
- RQ1AI 驱动的 HPC 工作流中哪些是经常出现的交互和耦合模式?
- RQ2如何将 AI–HPC 工作流分类为有限数量的模式以分析性能瓶颈?
- RQ3存在哪些框架用于支持 AI–HPC 集成,它们如何映射到这些模式?
- RQ4AI 耦合的 HPC 工作流的主要性能和系统挑战有哪些,如何应对?
- RQ5需要哪些开放的研究方向与基准来推动 AI 驱动的 HPC 工作流?
主要发现
- 六种执行模式捕捉了主要的 AI–HPC 交互模式(Steering、Multistage Pipeline、Inverse Design、Digital Replica、Distributed Models、Adaptive Training)。
- AI–HPC 耦合以三种模式发生(AI-in-HPC、AI-out-HPC、AI-about-HPC),并且可以跨模式组合。
- AI 驱动的 Steering 与多阶段管道可以显著提高效率,并使 HPC 工作流实现近实时决策成为可能。
- 数字孪生(digital twins)将 AI 与 HPC 与实验整合,以监控、预测和引导仿真。
- 分布式模型和动态数据应对边缘到云端及广域网分布资源,实现近实时自适应。
- 自适应训练专注于利用 HPC 仿真产生的数据来训练大型 AI 模型,可能与仿真同时进行。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。