Skip to main content
QUICK REVIEW

[论文解读] A Formal Framework for Predicting Distributed System Performance under Faults (Extended Version)

Ziwei Zhou, Si Liu|arXiv (Cornell University)|Feb 22, 2026
Software System Performance and Reliability被引用 0
一句话总结

本文提出 PerF,这是一个基于 Maude 的形式化框架,内置故障库与模型组合,用于在多种故障下预测分布式系统性能,并在真实部署上进行验证。

ABSTRACT

Today's distributed systems operate in complex environments that inevitably involve faults and even adversarial behaviors. Predicting their performance under such environments directly from formal designs remains a longstanding challenge. We present the first formal framework that systematically enables performance prediction of distributed systems across diverse faulty scenarios. Our framework features a fault injector together with a wide range of faults, reusable as a library, and model compositions that integrate the system and the fault injector into a unified model suitable for statistical analysis of performance properties such as throughput and latency. We formalize the framework in Maude and implement it as an automated tool, PERF. Applied to representative distributed systems, PERF accurately predicts system performance under varying fault settings, with estimations from formal designs consistent with evaluations on real deployments.

研究动机与目标

  • 弥合分布式系统在设计形式化与在故障下性能之间的差距。
  • 提供可复用、模块化的故障库,能够与系统模型进行组合。
  • 实现自动生成含故障注入的模型并进行定量性能分析。
  • 支持从 benign 到 Byzantine 的多种故障类型,以覆盖现实环境。
  • 提供一个与统计模型检验集成的工具(PerF),用于端到端分析。

提出的方法

  • 将分布式系统与故障建模为 Maude 中的概率化重写理论。
  • 将故障表示为与系统行为体互动的执行者(故障处理器),通过消息进行通信。
  • 将系统模型与故障注入器进行组合,生成一个集成模型。
  • 采用故障行为优先级方案来解决多种可应用故障的冲突。
  • 证明组合模型在统计模型检验中的可靠性,保持无非确定性(AND)性质。
  • 通过 PVeStA 实现自动故障注入、带事件监控的模型转换,以及基于 QuaTEx 的性能分析。

实验结果

研究问题

  • RQ1如何系统地在正式系统模型中集成故障以进行性能分析?
  • RQ2模块化的故障库在保持可分析性的前提下,能否支持多种故障类型与组合?
  • RQ3在不同故障条件下,正式模型对吞吐量和延迟的预测与真实部署相比有多高的准确性?
  • RQ4为使对含故障的系统进行统计模型检验,需要哪些保证(如无非确定性)?

主要发现

  • PerF 在六个分布式系统上对各种故障的性能预测具有高准确性,模型结果与部署评估一致。
  • 可重复使用的故障库覆盖 benign 与 Byzantine 故障,且支持与系统的模块化组合。
  • 故障优先级设定确保在故障注入过程中的交互具有确定性、可分析性。
  • 该框架保持必要的 AND 属性,从而实现使用 QuaTEx 属性进行端到端统计模型检验。
  • 实验设置在 CloudLab 与腾讯云的真实部署上进行,验证了在消息丢失、延迟、崩溃、分区和对等性等故障条件下的预测。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。