Skip to main content
QUICK REVIEW

[論文レビュー] Repairing Multiple Failures with Coordinated and Adaptive Regenerating Codes

Anne-Marie Kermarrec, Gilles Straub|arXiv (Cornell University)|Feb 1, 2011
Advanced Data Storage Technologies被引用数 78
ひとこと要約

この論文は、分散ストレージシステムにおける複数同時障害の修復を最適化するため、調整可能で適応的な再生コードを導入する。デバイスが修復を調整し、パラメータを動的に調整することで、ストレージと修復帯域幅の最適なトレードオフを達成する。また、遅延修復(lazy repairs)はディスクI/Oを削減するが、ネットワーク修復コストを削減しないことが示された。

ABSTRACT

Erasure correcting codes are widely used to ensure data persistence in distributed storage systems. This paper addresses the simultaneous repair of multiple failures in such codes. We go beyond existing work (i.e., regenerating codes by Dimakis et al.) by describing (i) coordinated regenerating codes (also known as cooperative regenerating codes) which support the simultaneous repair of multiple devices, and (ii) adaptive regenerating codes which allow adapting the parameters at each repair. Similarly to regenerating codes by Dimakis et al., these codes achieve the optimal tradeoff between storage and the repair bandwidth. Based on these extended regenerating codes, we study the impact of lazy repairs applied to regenerating codes and conclude that lazy repairs cannot reduce the costs in term of network bandwidth but allow reducing the disk-related costs (disk bandwidth and disk I/O).

研究の動機と目的

  • 既存の再生コードが複数障害の同時修復をサポートしないという制限を解決すること。
  • 現在のシステム状態に応じて接触ノード数(d)と修復対象障害数(t)を変化させることで、動的に適応する修復メカニズムを設計すること。
  • 遅延修復(修復を延期すること)が再生コードシステムにおけるネットワークおよびディスク関連の修復コストに与える影響を分析すること。
  • 最適な修復帯域幅とストレージトレードオフを達成するための調整可能で適応的な再生コードの理論的基盤を確立すること。

提案手法

  • t>1の障害ノードが同時にd台の稼働ノードに接続し、データ損失を再構築するために協調する、協調的再生コード(cooperative regenerating codes)を提案する。
  • t>1の障害が発生した場合の協調的修復における最適なデータ転送量の閉形式表現を導出する。
  • dとtを、現在のシステム状態に応じて変化させることで、動的条件下でも最適な修復を実現する、適応的再生コードを導入する。
  • ネットワーク帯域幅とディスクI/Oに与える遅延修復(修復の延期)の影響を分析し、ネットワーク関連コストとディスク関連コストを区別する。
  • 最適な修復帯域幅を備えた機能的修復モデルを用い、Dimakisらの再生コードフレームワークに基づく。
  • 局所的修復可能コードとの組み合わせを検討し、n−1台の利用可能なノードの中から任意のd台のノードから局所的修復が可能な、新たなコードクラスを提案する。

実験結果

リサーチクエスチョン

  • RQ1複数ノードが同時に障害した場合に、協調的再生コードは最適な修復帯域幅を達成できるか?また、tとdの増加に伴い修復プロセスはどのようにスケーリングするか?
  • RQ2dとtを動的に変化させる適応的再生コードは、変化し続ける実世界のストレージ環境において、静的再生コードを上回る性能を示すか?
  • RQ3遅延修復(修復の延期)は、従来のエラー訂正コードと同様に、再生コードシステムにおけるネットワーク修復帯域幅を削減するか?
  • RQ4ネットワークコストを削減しないにもかかわらず、遅延修復は再生コードシステムにおけるディスク関連コスト(I/Oおよびディスク帯域幅)を削減できるか?
  • RQ5再生コードと局所的修復可能コードをどのように組み合わせることで、グローバル修復とローカル修復の両方の効率性を備えた新たなコードクラスを構築できるか?

主な発見

  • 協調的再生コードは、t>1の障害が同時に発生する場合にも、ストレージと修復帯域幅の最適なトレードオフを達成する。これは、Dimakisらの結果をt>1障害に拡張したものである。
  • 適応的再生コードは、dとtをシステム状態に応じて動的に調整することで、変化するシステム環境下でも最適な修復パフォーマンスを維持でき、実世界への導入に適している。
  • 遅延修復は再生コードではネットワーク修復帯域幅を削減しない。これは、従来のエラー訂正コードでは有効であったが、再生コードでは逆に効果がなかったことを示している。
  • しかし、遅延修復は、修復中のディスクアクセス頻度が低下するため、ディスク関連コスト(I/Oおよびディスク帯域幅)を顕著に削減する。
  • 本論文は、適応的再生コードがMBR(最小帯域幅再生)点では意味を持たないことを特定し、このアプローチの理論的限界を明確にした。
  • 局所的修復可能再生コードと呼ばれる新たなコードクラスを提案した。このコードは、利用可能なn−1台のノードの中から任意のr台のノードから局所的修復が可能であり、再生コードと局所的修復可能コードの利点を両方兼ね備えている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。