QUICK REVIEW
[论文解读] Distributed Computing Economics
Jim Gray|ArXiv.org|Mar 12, 2004
Distributed and Parallel Computing Systems被引用 30
一句话总结
本文通过利用计算、存储和网络资源当前的价格均等——即每100,000条指令、10字节网络流量、10字节磁盘存储和1兆字节磁盘带宽的成本大致相等——在互联网规模的分布式计算中提出了一种范式转变。为最小化昂贵的网络传输,本文主张将计算尽可能靠近数据进行,从根本上重塑系统架构以提升效率。
ABSTRACT
Computing economics are changing. Today there is rough price parity between (1) one database access, (2) ten bytes of network traffic, (3) 100,000 instructions, (4) 10 bytes of disk storage, and (5) a megabyte of disk bandwidth. This has implications for how one structures Internet-scale distributed computing: one puts computing as close to the data as possible in order to avoid expensive network traffic.
研究动机与目标
- 分析互联网规模分布式计算系统中不断演变的经济权衡。
- 识别关键计算资源之间当前的价格均等关系:数据库访问、网络流量、指令、磁盘存储和磁盘带宽。
- 通过最小化昂贵的网络通信来指导分布式系统的架构决策。
- 提出一种设计哲学的转变,即向数据本地计算靠拢,以减少网络开销。
- 为大规模分布式环境中的系统设计提供定量基础。
提出的方法
- 建立五种关键系统资源之间的成本等价模型:一次数据库访问、十比特网络流量、十万条指令、十比特磁盘存储和一兆字节磁盘带宽。
- 利用21世纪初的实证成本数据,推导出这些不同计算和网络操作之间的近似价格均等关系。
- 将经济推理应用于分布式系统设计,将网络传输视为最昂贵的操作。
- 推荐通过将计算与数据共置来最小化网络流量的架构模式。
- 使用微软研究院的内部成本数据和行业趋势来验证经济模型。
- 基于成本最小化制定设计原则,优先选择数据本地计算而非远程访问。
实验结果
研究问题
- RQ1在分布式计算中,如数据库访问、网络传输和磁盘I/O等基本操作的当前相对成本是多少?
- RQ2计算、存储和网络资源之间的价格均等如何影响系统架构决策?
- RQ3当网络带宽是最昂贵的资源时,哪些架构策略能最小化总系统成本?
- RQ4通过将计算更靠近数据移动,性能和可扩展性能在多大程度上得到提升?
- RQ5经济原则如何系统性地应用于设计可扩展、成本效益高的分布式系统?
主要发现
- 一次数据库访问、十比特网络流量、十万条指令、十比特磁盘存储和一兆字节磁盘带宽之间存在粗略的价格均等关系。
- 单位成本上,网络流量是最昂贵的操作,因此是分布式系统中优化的主要目标。
- 成本等价性意味着最小化网络传输能带来最大的性能和成本收益。
- 在互联网规模系统中,将计算尽可能靠近数据放置是降低总系统成本的最优策略。
- 该经济模型为系统设计提供了定量基础,优先选择数据本地计算而非远程计算。
- 研究结果支持分布式系统架构的根本性转变,即向以数据为中心的计算演进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。