Skip to main content
QUICK REVIEW

[论文解读] The Living Application

Derek Groen, Stefan Harfst|arXiv (Cornell University)|May 1, 2010
Distributed and Parallel Computing Systems参考文献 29被引用 2
一句话总结

该论文提出了‘运行中的应用程序’——一种自我管理的系统,能够在执行过程中根据工作负载和环境条件自主选择最优的网格资源。在测试案例中,一个运行中的模拟程序在跨大洲的GPU和GRAPE加速机器之间动态切换,以加速N体星系碰撞建模,实现了实时、用户透明的自适应性能优化。

ABSTRACT

We present the living application, a method to autonomously manage applications on the grid. During its execution on the grid, the living application makes choices on the resources to use in order to complete its tasks. These choices can be based on the internal state, or on autonomously acquired knowledge from external sensors. By giving limited user capabilities to a living application, the living application is able to port itself from one resource topology to another. The application performs these actions at run-time without depending on users or external workflow tools. We demonstrate this new concept in a special case of a living application: the living simulation. Today, many simulations require a wide range of numerical solvers and run most efficiently if specialized nodes are matched to the solvers. The idea of the living simulation is that it decides itself which grid machines to use based on the numerical solver currently in use. In this paper we apply the living simulation to modeling the collision between two galaxies in a test setup with two specialized computers. This simulation switches at run-time between a GPU-enabled computer in the Netherlands and a GRAPE-enabled machine that resides in the United States, using an oct-tree N-body code whenever it runs in the Netherlands and a direct N-body solver in the United States.

研究动机与目标

  • 为解决在大规模科学模拟中高效映射各种数值求解器到专用硬件的挑战。
  • 减少在高性能计算中对静态工作流和用户干预资源分配的依赖。
  • 使应用程序能够实时自主适应计算拓扑和工作负载的变化。
  • 展示在分布式、地理分散的网格环境中实现自优化模拟的可行性。

提出的方法

  • 运行中的应用程序使用运行时决策机制,根据当前的数值求解器和系统状态选择资源。
  • 通过监控内部状态和外部传感器数据,确定执行的最优计算节点。
  • 系统在荷兰的GPU机器和美国的GRAPE机器之间动态切换。
  • 模拟在荷兰的GPU机器上使用八叉树N体代码,在美国的GRAPE机器上使用直接N体求解器。
  • 资源切换在运行时发生,无需用户或工作流工具的干预。
  • 应用程序在资源切换过程中保持状态和连续性,以确保计算的完整性。

实验结果

研究问题

  • RQ1科学应用程序是否能在执行过程中自主选择并切换到专用计算资源?
  • RQ2应用程序如何根据实时工作负载和硬件特性调整其资源使用?
  • RQ3在分布式、异构的网格环境中,自主资源管理能在多大程度上提升性能?
  • RQ4自优化模拟能否减少对人工配置和外部工作流工具的依赖?

主要发现

  • 运行中的模拟程序成功在荷兰的GPU机器和美国的GRAPE机器之间实现了运行时切换。
  • 系统通过在GPU上使用八叉树N体代码、在GRAPE上使用直接N体求解器,实现了算法与硬件的匹配。
  • 资源选择和切换无需用户输入或外部工作流协调。
  • 应用程序在拓扑变化过程中保持了计算连续性和状态,展示了运行时的自适应能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。