Skip to main content
QUICK REVIEW

[論文レビュー] RevDedup: A Reverse Deduplication Storage System Optimized for Reads to Latest Backups

Chun-Ho Ng, Patrick P. C. Lee|arXiv (Cornell University)|Feb 4, 2013
Advanced Data Storage Technologies参考文献 24被引用数 23
ひとこと要約

RevDedup は、最新の仮想マシン(VM)バックアップの読み取りパフォーマンスを最適化するリバースデュプレイケーションストレージシステムであり、独創的なリバースデュプレイケーション技術により、断片化を古いバックアップに移動することで実現する。古いバックアップからの重複ブロックを削除し、それらを新しいブロックで参照することで、最新のバックアップに連続的なレイアウトを維持し、実世界のVMイメージワークロードにおいて97%のストレージ削減と1.2–1.7 GB/sの読み取りスループットを達成する。

ABSTRACT

Scaling up the backup storage for an ever-increasing volume of virtual machine (VM) images is a critical issue in virtualization environments. While deduplication is known to effectively eliminate duplicates for VM image storage, it also introduces fragmentation that will degrade read performance. We propose RevDedup, a deduplication system that optimizes reads to latest VM image backups using an idea called reverse deduplication. In contrast with conventional deduplication that removes duplicates from new data, RevDedup removes duplicates from old data, thereby shifting fragmentation to old data while keeping the layout of new data as sequential as possible. We evaluate our RevDedup prototype using microbenchmark and real-world workloads. For a 12-week span of real-world VM images from 160 users, RevDedup achieves high deduplication efficiency with around 97% of saving, and high backup and read throughput on the order of 1GB/s. RevDedup also incurs small metadata overhead in backup/read operations.

研究の動機と目的

  • 頻繁にアクセスされる最新のバックアップにおいて、断片化によって引き起こされるパフォーマンス劣化を是正すること。
  • ストレージ効率や書き込みパフォーマンスを損なわず、最近の VM バックアップの読み取りスループットを向上させること。
  • デュプレイケーションを古いデータを対象とするように再定義することで、新規データから古いデータへの断片化の移動を実現すること。
  • 仮想化環境における効率的なストレージ利用を可能にしつつ、高水準のバックアップおよびリストアパフォーマンスを維持するシステムを設計すること。
  • リバースデュプレイケーションが、最新のバックアップバージョンにおける I/O オーバーヘッドを顕著に低減できることを実証すること。

提案手法

  • バックアップ時に、古いバックアップ内の既存ブロックが新しいブロックに置き換え可能かどうかを確認することで、リバースデュプレイケーションを実装し、古いデータからの重複ブロックの削除を実現する。
  • 異なる VM 間でのインライン粗粒度デュプレイケーションと、同じ VM のバージョン内での順不同細粒度リバースデュプレイケーションを組み合わせたハイブリッドアプローチを採用する。
  • 穴あきパンチングとセグメントコンパクト化を用いた、設定可能なしきい値に基づくブロック削除を適用し、連続した領域を回収して断片化を低減する。
  • コンテンツアドレスブルーのインデックスを維持することで、バックアップ全体にわたるデュプレイケート済みブロックを効率的に検索・参照できるようにする。
  • クライアント・サーバーアーキテクチャを採用し、複数の VM クライアントが中央集権的なストレージサーバーにバックアップ更新を送信できるようにする。
  • 古いバックアップバージョンの読み取りに必要な間接参照のトレースを統合し、効率的なメタデータ管理により、最小限のオーバーヘッドで実現する。

実験結果

リサーチクエスチョン

  • RQ1リバースデュプレイケーションにより、新規データから古いデータへの重複削除の移動によって、最新の VM バックアップにおける断片化を低減できるか?
  • RQ2従来のデュプレイケーションシステムと比較して、リバースデュプレイケーションはバックアップおよび読み取りスループットにどのような影響を与えるか?
  • RQ3リバースデュプレイケーションにおけるブロック削除およびセグメントコンパクト化のパフォーマンスオーバーヘッドはどの程度か?
  • RQ4再構築しきい値がディスクの断片化とブロック削除効率に与える影響は何か?
  • RQ5古いバックアップバージョンの読み取りにおける間接参照トレースのパフォーマンスへの影響は何か?

主な発見

  • 160台のVMが12週間分のデータセットに対して、RevDedup は約97%のストレージ削減を達成し、高いデュプレイケーション効率を示した。
  • システムは最新のバックアップに対して4–7 GB/sのバックアップスループットと1.2–1.7 GB/sの読み取りスループットを維持しており、読み取り集約的ワークロードにおいて従来のデュプレイケーションシステムを顕著に上回った。
  • リバースデュプレイケーションのオーバーヘッド(ブロック削除およびインデキシングを含む)は、合計バックアップ時間の15–22%にとどまり、1バージョンあたりのブロック削除時間は0.26秒未満で安定している。
  • 再構築しきい値が高くなるほどディスクの断片化が増加する。100%のしきい値(ブロックパンチングのみ)では、小さな空き領域が格納データサイズを上回り、高い断片化が生じていることが示された。
  • 古いバックアップの読み取りに必要な間接参照トレースは、合計読み取り時間の最大15%にとどまり、パフォーマンスへの影響が最小限であることが確認された。
  • 多数のバックアップバージョンが存在しても、バックアップおよび読み取り操作におけるメタデータのオーバーヘッドはわずかであり、生産環境でのスケーラビリティを確保している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。