Skip to main content
QUICK REVIEW

[논문 리뷰] Empirical Measurements of Disk Failure Rates and Error Rates

Jim Gray, Catharine van Ingen|ArXiv.org|2007. 01. 26.
Advanced Data Storage Technologies인용 수 65
한 줄 요약

이 논문은 2 PB 규모의 스토리지 시스템에서의 디스크 장애 및 오류율에 대한 실증적 측정을 제시하며, 비교적 오류율(UER)이 주요 지표로서의 관련성을 도전한다. 비가역적 읽기 오류는 다른 시스템 장애에 비해 흔하지 않으며, 데이터 아키텍트를 위한 더 의미 있는 지표로 평균 데이터 손실 시간(MTTDL)을 제안한다. 이는 오류 발생 시 한 번에 여러 블록이 영향을 받을 수 있음을 강조한다.

ABSTRACT

The SATA advertised bit error rate of one error in 10 terabytes is frightening. We moved 2 PB through low-cost hardware and saw five disk read error events, several controller failures, and many system reboots caused by security patches. We conclude that SATA uncorrectable read errors are not yet a dominant system-fault source - they happen, but are rare compared to other problems. We also conclude that UER (uncorrectable error rate) is not the relevant metric for our needs. When an uncorrectable read error happens, there are typically several damaged storage blocks (and many uncorrectable read errors.) Also, some uncorrectable read errors may be masked by the operating system. The more meaningful metric for data architects is Mean Time To Data Loss (MTTDL.)

연구 동기 및 목표

  • 대규모 실세계 스토리지 시스템에서 디스크 장애 및 오류율을 실증적으로 측정하기.
  • 생산 워크로드 하에서 SATA 디스크 드라이브의 신뢰성 평가하기.
  • 비가역적 오류율(UER)이 시스템 설계에 의미 있는 지표인지 평가하기.
  • 대규모 스토리지 시스템에서의 주요 고장 원인 파악하기.
  • 데이터 아키텍트를 위한 UER보다 더 관련성이 높은 지표로 평균 데이터 손실 시간(MTTDL) 제안하기.

제안 방법

  • 저비용 하드웨어를 사용한 2 PB 스토리지 시스템의 장애 및 오류 로그 수집 및 분석.
  • 비가역적 읽기 오류, 컨트롤러 장애, 보안 패치로 인한 시스템 재부팅 모니터링.
  • 오류 이벤트와 시스템 수준의 장애 및 데이터 손실 지표 간 상관관계 분석.
  • 운영 체제가 비가역적 읽기 오류에 미치는 마스킹 효과 평가.
  • 다중 손상 블록이 한 번의 오류 이벤트에 영향을 받는 등 고장 패턴의 통계적 분석.
  • 이론적 UER를 초월한 신뢰성 지표 평가를 위해 실제 운영 데이터 활용.

실험 결과

연구 질문

  • RQ1대규모 실세계 디스크 스토리지 시스템에서 비가역적 읽기 오류는 얼마나 자주 발생하는가?
  • RQ2비가역적 읽기 오류는 현대 스토리지 시스템에서 시스템 장애의 주요 원인인가?
  • RQ3비가역적 읽기 오류는 운영 체제 또는 하드웨어에 의해 어느 정도 마스킹되는가?
  • RQ4비가역적 읽기 오류 발생 시 일반적으로 몇 개의 스토리지 블록이 영향을 받는가?
  • RQ5UER 지표는 시스템 수준의 데이터 손실을 예측하는 데 충분한가, 아니면 MTTDL이 더 나은 대안인가?

주요 결과

  • 2 PB의 데이터에서 비가역적 읽기 오류 이벤트는 단지 다섯 건에 그쳐 실생활에서는 흔하지 않음을 시사한다.
  • 보안 패치로 인한 시스템 재부팅 및 컨트롤러 장애는 비가역적 읽기 오류보다 더 자주 발생한다.
  • 비가역적 읽기 오류는 한 번에 하나의 블록이 아니라 여러 스토리지 블록에 영향을 미치는 경우가 많다.
  • 운영 체제는 일부 비가역적 읽기 오류를 마스킹하여 그 존재를 감추는 경향이 있다.
  • UER 지표는 시스템 신뢰성에 대한 가장 의미 있는 지표가 아니며, MTTDL이 데이터 손실 위험 예측에 더 나은 예측자이다.
  • SATA 디스크 드라이브는 컨트롤러 장애나 소프트웨어 업데이트와 같은 다른 시스템 장애에 비해 비가역적 읽기 오류를 덜 겪는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.