Skip to main content
QUICK REVIEW

[논문 리뷰] A Solution to the Network Challenges of Data Recovery in Erasure-coded Distributed Storage Systems: A Study on the Facebook Warehouse Cluster

K. V. Rashmi, Nihar B. Shah|arXiv (Cornell University)|2013. 09. 01.
Advanced Data Storage Technologies인용 수 192
한 줄 요약

이 논문은 페어링 프레임워크를 사용하여 구축된 새로운 에러 복구 코드인 Piggybacked-RS를 제안한다. 이 코드는 에러 복구 시 네트워크 및 디스크 I/O를 30% 감소시켜 분산 스토리지 시스템 내에서 데이터 복구 성능을 향상시킨다. 페이스북의 실존 클러스터에서 평가한 결과, 이 코드는 하루에 약 50TB에 이르는 레이크 간 트래픽을 절감하였으며, 저장소 최적성과 임의의 파rameter를 유지한다.

ABSTRACT

Erasure codes, such as Reed-Solomon (RS) codes, are being increasingly employed in data centers to combat the cost of reliably storing large amounts of data. Although these codes provide optimal storage efficiency, they require significantly high network and disk usage during recovery of missing data. In this paper, we first present a study on the impact of recovery operations of erasure-coded data on the data-center network, based on measurements from Facebook's warehouse cluster in production. To the best of our knowledge, this is the first study of its kind available in the literature. Our study reveals that recovery of RS-coded data results in a significant increase in network traffic, more than a hundred terabytes per day, in a cluster storing multiple petabytes of RS-coded data. To address this issue, we present a new storage code using our recently proposed "Piggybacking" framework, that reduces the network and disk usage during recovery by 30% in theory, while also being storage optimal and supporting arbitrary design parameters. The implementation of the proposed code in the Hadoop Distributed File System (HDFS) is underway. We use the measurements from the warehouse cluster to show that the proposed code would lead to a reduction of close to fifty terabytes of cross-rack traffic per day.

연구 동기 및 목표

  • 대규모 데이터 센터의 네트워크 인프라에 대해 에러 코드 복구의 실세계적 영향을 분석하는 것.
  • 실제 시스템에서 리드-솔로몬 코드로 인코딩된 데이터 복구 시 높은 네트워크 및 디스크 대역폭 소비 문제를 해결하는 것.
  • 저장소 효율성 또는 장애 내성 손실 없이 복구 대역폭을 줄이는 스토리지 코드를 설계하는 것.
  • 페이스북의 웨어하우스 클러스터에서의 실측 데이터를 사용해 제안된 코드의 성능을 평가하는 것.

제안 방법

  • 저자들은 페어링 프레임워크를 사용하여 리드-솔로몬 코드를 수정하여, 다수의 스트라이프에서 유래한 인코딩된 데이터를 패리티 기호에 통합함으로써 복구 대역폭을 감소시킨다.
  • 새로운 코드인 Piggybacked-RS는 표준 RS 코드가 요구하는 데이터의 70%만 다운로드하여 손실된 블록을 복구할 수 있도록 한다.
  • 이 디자인은 임의의 파rameter (k, r)를 지원하여 저장소 최적성과 최대 거리 분리 가능(MDS) 성질을 유지한다.
  • 실제 페이스북 웨어하우스 클러스터에서의 측정 데이터를 사용하여 방법을 평가하였으며, 레이크 간 트래픽 감소가 뚜렷하게 나타났다.
  • 이론적 분석을 통해 어떤 (k, r) RS 코드에 대해서나 복구 시 네트워크 및 디스크 사용량이 30% 감소함을 확인하였다.
  • HDFS에 구현 중이며, 대규모 환경에서의 성능을 검증 중이다.

실험 결과

연구 질문

  • RQ1대규모 실존 클러스터에서 에러 코드 복구로 인해 하루에 얼마나 많은 레이크 간 네트워크 트래픽이 발생하는가?
  • RQ2저장소 오버헤드를 늘리거나 내성 능력을 감소시키지 않고 복구 대역폭을 얼마나 줄일 수 있는가?
  • RQ3더 많은 노드에 연결되지만 각 노드에서 다운로드하는 데이터량이 적은 코드 설계는 전체 복구 시간과 네트워크 부하를 줄일 수 있는가?
  • RQ4Piggybacked-RS 코드는 LRCs나 재생 코드와 같은 기존 코드들과 비교해 대역폭 효율성과 저장소 오버헤드 측면에서 어떻게 다른가?
  • RQ5이러한 코드를 실존 데이터 센터 환경에 도입했을 때의 실세계적 영향은 무엇인가?

주요 결과

  • 페이스북의 웨어하우스 클러스터에서 에러 코드 복구로 인해 하루에 100TB 이상의 레이크 간 네트워크 트래픽이 발생한다.
  • 제안된 Piggybacked-RS 코드는 이 트래픽을 하루에 약 50TB 감소시켜 네트워크 및 디스크 사용량을 30% 감소시켰다.
  • 코드는 저장소 최적성과 MDS 성질을 유지하며, 표준 RS 코드 외에 추가 저장소가 필요하지 않다.
  • 전체 전송 데이터량이 감소함에 따라 복구 시간이 감소할 것으로 예상된다. 이는 더 많은 노드를 접촉하더라도 그렇다.
  • 기존의 Rotated-RS나 LRCs와 달리, 이 코드는 작은 수의 패리티에 국한되지 않고 임의의 (k, r) 파rameter를 지원한다.
  • 초기 실험 결과, 노드 연결성 증가가 복구 시간을 증가시키지 않음을 확인하였으며, 대역폭이 주요 병목 요소임을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.