[論文レビュー] Empirical Measurements of Disk Failure Rates and Error Rates
本論文は、2 PBのストレージシステムからの実測データを用いてディスク障害およびエラー率を測定し、誤検出不能エラー率(UER)を主な指標とする意義に疑問を呈する。実際には、他のシステム障害と比較して誤検出不能読み取りエラーはまれであり、データアーキテクトにとってより意味のある指標として平均データ損失時間(MTTDL)を提唱する。また、1回のエラーイベントで複数のブロックが影響を受けることが多いと指摘している。
The SATA advertised bit error rate of one error in 10 terabytes is frightening. We moved 2 PB through low-cost hardware and saw five disk read error events, several controller failures, and many system reboots caused by security patches. We conclude that SATA uncorrectable read errors are not yet a dominant system-fault source - they happen, but are rare compared to other problems. We also conclude that UER (uncorrectable error rate) is not the relevant metric for our needs. When an uncorrectable read error happens, there are typically several damaged storage blocks (and many uncorrectable read errors.) Also, some uncorrectable read errors may be masked by the operating system. The more meaningful metric for data architects is Mean Time To Data Loss (MTTDL.)
研究の動機と目的
- 大規模で実世界のストレージシステムにおけるディスク障害およびエラー率を実測すること。
- 運用ワークロード下でのSATAディスクドライブの信頼性を評価すること。
- 誤検出不能エラー率(UER)がシステム設計において意味のある指標であるかどうかを評価すること。
- 大規模ストレージシステムにおける主要な障害要因を特定すること。
- データアーキテクトにとってより適切な指標として、平均データ損失時間(MTTDL)を提唱すること。
提案手法
- 低コストのハードウェアを用いた2 PBストレージシステムからの障害およびエラーログの収集と分析。
- 誤検出不能読み取りエラー、コントローラ障害、セキュリティパッチによるシステム再起動の監視。
- エラーイベントとシステムレベルの障害、データ損失の兆候との相関分析。
- オペレーティングシステムによる誤検出不能読み取りエラーのマスキング効果の評価。
- 1回のエラーイベントで複数の破損ブロックが影響を受けるなどの、障害パターンの統計的分析。
- 理論的UERを超える信頼性指標を評価するため、実運用データを用いた分析。
実験結果
リサーチクエスチョン
- RQ1大規模で実世界のディスクストレージシステムでは、誤検出不能読み取りエラーはどの程度の頻度で発生するか?
- RQ2誤検出不能読み取りエラーは、現代のストレージシステムにおける主要な障害要因であるか?
- RQ3誤検出不能読み取りエラーは、どの程度オペレーティングシステムやハードウェアによってマスキングされているか?
- RQ41回の誤検出不能読み取りエラーイベントで通常どの程度のストレージブロックが影響を受けるか?
- RQ5UER指標はシステムレベルのデータ損失を予測するのに十分か、それともMTTDLがより優れた代替指標か?
主な発見
- 2 PBのデータにおいて、誤検出不能読み取りエラーのイベントはわずか5件にとどまり、実際にはまれであることが示された。
- セキュリティパッチによるシステム再起動やコントローラ障害は、誤検出不能読み取りエラーの発生頻度を上回っていた。
- 誤検出不能読み取りエラーは、通常1つのブロックではなく、複数のストレージブロックに影響を及ぼす。
- オペレーティングシステムは一部の誤検出不能読み取りエラーをマスキングしており、その可視性を低下させている。
- UER指標はシステム信頼性の指標として最も意味のあるものではなく、MTTDLの方がデータ損失リスクの予測に優れている。
- SATAディスクドライブは、コントローラ障害やソフトウェア更新などの他のシステム障害と比較して、誤検出不能読み取りエラーを発生させる頻度がはるかに低い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。