QUICK REVIEW

[논문 리뷰] RevDedup: A Reverse Deduplication Storage System Optimized for Reads to Latest Backups

Chun-Ho Ng, Patrick P. C. Lee|arXiv (Cornell University)|2013. 02. 04.

Advanced Data Storage Technologies참고 문헌 24인용 수 23

한 줄 요약

RevDedup는 최신 가상머신(VM) 백업의 읽기 성능을 최적화하기 위해 기존의 중복 제거 기법을 뒤집어, 중복 블록을 이전 백업으로 이동시켜 최신 백업의 순차적 레이아웃을 유지하는 새로운 역중복 제거 기법을 사용하는 역중복 제거 스토리지 시스템이다. 이로 인해 실제 VM 이미지 워크로드에서 97%의 스토리지 절감과 1.2–1.7 GB/s의 읽기 스루풋을 달성한다.

ABSTRACT

Scaling up the backup storage for an ever-increasing volume of virtual machine (VM) images is a critical issue in virtualization environments. While deduplication is known to effectively eliminate duplicates for VM image storage, it also introduces fragmentation that will degrade read performance. We propose RevDedup, a deduplication system that optimizes reads to latest VM image backups using an idea called reverse deduplication. In contrast with conventional deduplication that removes duplicates from new data, RevDedup removes duplicates from old data, thereby shifting fragmentation to old data while keeping the layout of new data as sequential as possible. We evaluate our RevDedup prototype using microbenchmark and real-world workloads. For a 12-week span of real-world VM images from 160 users, RevDedup achieves high deduplication efficiency with around 97% of saving, and high backup and read throughput on the order of 1GB/s. RevDedup also incurs small metadata overhead in backup/read operations.

연구 동기 및 목표

자주 액세스되는 최신 백업에서 발생하는 분할로 인한 성능 저하 문제를 해결한다.
스토리지 효율성이나 쓰기 성능을 희생시키지 않고 최신 VM 백업의 읽기 스루풋을 향상시킨다.
중복 제거 대상을 기존 데이터로 재정의하여 새로운 데이터에서의 분할을 이전 데이터로 이전한다.
가상화 환경에서 효율적인 스토리지 활용을 가능하게 하면서도 고성능의 백업 및 복원 성능을 유지하는 시스템을 설계한다.
역중복 제거가 최신 백업 버전에서의 I/O 오버헤드를 크게 줄일 수 있음을 입증한다.

제안 방법

백업 중 기존의 오래된 백업 블록이 새로운 블록으로 대체 가능한지 확인함으로써, 오래된 데이터에서 중복을 제거하는 방식으로 역중복 제거를 구현한다.
다른 VM 간의 인-line 굵은 그레인 중복 제거와 동일한 VM의 버전 내에서의 순서를 고려하지 않은 세밀한 그레인 역중복 제거를 조합한 하이브리드 접근 방식을 사용한다.
구 konfig 레이션 기반 임계값을 사용해 구멍 뚫기와 세그먼트 압축을 통해 연속된 공간을 확보하고 분할을 줄인다.
모든 백업 간에 중복 제거된 블록을 효율적으로 찾고 참조하기 위해 콘텐츠 기반 인덱스를 유지한다.
클라이언트-서버 아키텍처를 사용하여 여러 VM 클라이언트가 중앙 집중식 스토리지 서버에 백업 업데이트를 제출하도록 지원한다.
오래된 백업 버전을 읽을 때 간접 참조를 추적하기 위해 트레이싱을 통합하며, 효율적인 메타데이터 관리 덕분에 최소한의 오버헤드를 유발한다.

실험 결과

연구 질문

RQ1역중복 제거를 통해 새로운 데이터에서의 중복 제거를 이전 데이터로 이동시킴으로써 최신 VM 백업의 분할을 줄일 수 있는가?
RQ2기존의 중복 제거 시스템과 비교했을 때 역중복 제거가 백업 및 읽기 스루풋에 어떤 영향을 미치는가?
RQ3역중복 제거에서 블록 제거 및 세그먼트 압축의 성능 오버헤드는 얼마나 되는가?
RQ4재빌드 임계값이 디스크 분할과 블록 제거 효율성에 어떤 영향을 미치는가?
RQ5오래된 백업 버전을 읽을 때 간접 참조 추적의 읽기 성능에 미치는 영향은 어떠한가?

주요 결과

160台의 VM이 12주 간 생성한 데이터셋에서 RevDedup는 약 97%의 스토리지 절감을 달성하여 높은 중복 제거 효율성을 입증했다.
시스템은 최신 백업에 대해 4–7 GB/s의 백업 스루풋과 1.2–1.7 GB/s의 읽기 스루풋을 유지하며, 읽기 중심 워크로드에서 기존의 중복 제거 시스템보다 뚜렷한 성능 향상을 보였다.
역중복 제거 오버헤드(블록 제거 및 인덱싱 포함)는 총 백업 시간의 15–22%에 불과하며, 블록 제거 시간은 각 버전당 0.26초 이내로 유지되었다.
재빌드 임계값이 높을수록 디스크 분할이 증가한다. 100% 임계값(블록 퍼칭만)일 경우, 작은 자유 영역의 총 크기가 저장된 데이터 크기를 초과하여 고도로 분할된 상태임을 나타낸다.
오래된 백업을 읽을 때 간접 참조 추적은 총 읽기 시간의 최대 15%를 차지할 뿐이므로, 성능에 미치는 영향이 최소한임을 확인했다.
대규모 백업 버전 수가 존재하더라도 백업 및 읽기 작업 중에 소량의 메타데이터 오버헤드만 발생하여, 실사용 환경에서의 확장성도 확보했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.