[论文解读] Empirical Measurements of Disk Failure Rates and Error Rates
本文基于一个2 PB存储系统的实测数据,对磁盘故障和错误率进行了实证研究,挑战了不可纠正错误率(UER)作为主要指标的相关性。研究发现,与其它系统故障相比,不可纠正读取错误极为罕见,并提出将平均数据丢失时间(MTTDL)作为数据架构师更合适的指标,强调每次错误事件通常会影响多个数据块。
The SATA advertised bit error rate of one error in 10 terabytes is frightening. We moved 2 PB through low-cost hardware and saw five disk read error events, several controller failures, and many system reboots caused by security patches. We conclude that SATA uncorrectable read errors are not yet a dominant system-fault source - they happen, but are rare compared to other problems. We also conclude that UER (uncorrectable error rate) is not the relevant metric for our needs. When an uncorrectable read error happens, there are typically several damaged storage blocks (and many uncorrectable read errors.) Also, some uncorrectable read errors may be masked by the operating system. The more meaningful metric for data architects is Mean Time To Data Loss (MTTDL.)
研究动机与目标
- 对大规模真实世界存储系统中的磁盘故障和错误率进行实证测量。
- 评估SATA磁盘驱动器在生产工作负载下的可靠性。
- 评估不可纠正错误率(UER)是否是系统设计中的有意义指标。
- 识别大规模存储系统中的主要故障来源。
- 提出平均数据丢失时间(MTTDL)作为数据架构师比UER更相关的指标。
提出的方法
- 使用低成本硬件收集并分析一个2 PB存储系统的故障与错误日志。
- 监控不可纠正读取错误、控制器故障以及因安全补丁导致的系统重启。
- 将错误事件与系统级故障及数据丢失指标进行关联。
- 评估操作系统对不可纠正读取错误的屏蔽效应。
- 对故障模式进行统计分析,包括每次错误事件中受影响的多个损坏数据块。
- 利用真实世界运行数据评估超越理论UER的可靠性指标。
实验结果
研究问题
- RQ1在大规模真实世界磁盘存储系统中,不可纠正读取错误发生的频率如何?
- RQ2不可纠正读取错误是否是现代存储系统中系统故障的主要来源?
- RQ3不可纠正读取错误在多大程度上被操作系统或硬件所屏蔽?
- RQ4每次不可纠正读取错误事件通常会影响多少个存储块?
- RQ5UER指标是否足以预测系统级数据丢失?还是MTTDL是更优的替代方案?
主要发现
- 在2 PB的数据中仅观察到五起不可纠正读取错误事件,表明其在实践中极为罕见。
- 因安全补丁导致的系统重启及控制器故障的发生频率高于不可纠正读取错误。
- 不可纠正读取错误通常影响多个存储块,而不仅限于一个。
- 操作系统可屏蔽部分不可纠正读取错误,降低其可见性。
- UER指标并非衡量系统可靠性的最有效指标;MTTDL是预测数据丢失风险的更好指标。
- SATA磁盘驱动器发生不可纠正读取错误的频率低于其他系统故障,如控制器故障或软件更新。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。