Skip to main content
QUICK REVIEW

[論文レビュー] Brief Announcement: Building Fast Recoverable Persistent Data Structures with Montage

Haosen Wen, Wentao Cai|arXiv (Cornell University)|Jan 1, 2020
Distributed systems and fault tolerance参考文献 49被引用数 3
ひとこと要約

Montageは、遅い刻み目クロックとバッファリングされた耐久的線形化可能アプローチを用いて、高速で回復可能な永続的データ構造を構築する汎用システムである。本システムは、必須の抽象状態(例:キー・バリュー対)のみを永続化することで、パフォーマンスオーバーヘッドを最小限に抑え、障害発生時の回復時に一時的なDRAM内の具象構造(例:ハッシュテーブル、グラフ)を再構築することで、最大2000万回の操作/秒を達成。これはDRAMパフォーマンスの3倍以内であり、Dalí や Pronto といった先行システムよりも7倍速い性能を発揮する。

ABSTRACT

The recent emergence of fast, dense, nonvolatile main memory suggests that certain long-lived data might remain in its natural pointer-rich format across program runs and hardware reboots. Operations on such data must be instrumented with explicit write-back and fence instructions to ensure consistency in the wake of a crash. Techniques to minimize the cost of this instrumentation are an active topic of research. We present what we believe to be the first general-purpose approach to building buffered durably linearizable persistent data structures, and a system, Montage, to support that approach. Montage is built on top of the Ralloc nonblocking persistent allocator. It employs a slow-ticking epoch clock, and ensures that no operation appears to span an epoch boundary. It also arranges to persist only that data minimally required to reconstruct the structure after a crash. If a crash occurs in epoch $e$, all work performed in epochs $e$ and $e-1$ is lost, but work from prior epochs is preserved. We describe the implementation of Montage, argue its correctness, and report unprecedented throughput for persistent queues, sets/mappings, and general graphs.

研究の動機と目的

  • 非揮発性メモリ(NVM)環境下で、永続的データ構造における耐久的線形化の高いパフォーマンスコストを解消すること。
  • 通常動作時の明示的書き戻し命令やフェンス命令のオーバーヘッドを低減するため、永続化処理をコアパス実行から分離すること。
  • 障害発生時における高速回復を実現するため、最小限で必須の抽象状態のみを永続化し、一時的なメモリから具象データ構造を再構築すること。
  • クラッシュに耐性があり、正しく動作する一般用途のロックフリーかつ非ブロッキング永続的データ構造をサポートすること。
  • クラッシュ整合性と耐久性を保証しつつ、一時的DRAMデータ構造と同等のパフォーマンスを実現すること。

提案手法

  • エポック境界を跨がないようにするため、遅い刻み目クロックを採用することで、障害発生時でも安全に回復可能であることを保証する。
  • 抽象状態(NVMに永続化)と具象状態(一時的なDRAMで維持)を分離し、永続化対象は前者のみとする。
  • Ralloc非ブロッキング永続的アロケータを基盤として採用し、割り当て・解放処理における書き戻しとフェンスのオーバーヘッドを排除する。
  • 回復時、ユーザーが提供する論理によって抽象状態から具象データ構造(例:ハッシュテーブル、グラフ)を再構築する。
  • スレッド間で頂点およびエッジの再構築を分散させることで、スケーラブルかつ並列的な回復処理を実装し、ロックの最小限化を図る。
  • 操作間での永続化を調整することで、永続的効果の順序が線形化順序と一致するようにし、耐久的線形化を保証する。

実験結果

リサーチクエスチョン

  • RQ1一般用途のシステムとして、永続的データ構造における耐久的線形化のパフォーマンスオーバーヘッドを、クラッシュ整合性を損なわずに低減できるか?
  • RQ2永続化をバッファリングし、書き戻しを延期することで、永続的データ構造がDRAMに近いパフォーマンスを達成できる程度はどの程度か?
  • RQ3抽象状態と具象状態の分離が、永続ストレージへの書き込み回数を最小限に抑え、回復効率を向上させる点でどの程度有効か?
  • RQ4Rallocのような非ブロッキングアロケータを基盤とするシステムが、非ブロッキングのセマンティクスを維持しつつ、高速かつスケーラブルな回復を実現できるか?
  • RQ5実際のワークロード下で、Montageのパフォーマンスは、既存の一般用途および特殊用途の永続的データ構造と比べてどの程度か?

主な発見

  • Montageは読み込み中心のワークロードで1秒間に2000万回以上の操作を維持し、Dalí より7倍、Pronto より17倍高いスループットを達成した。
  • ハッシュマップにおけるMontageのパフォーマンスは、ネイティブなDRAMハッシュテーブルの3倍以内であり、Intel Optane NVM上での理論的最良パフォーマンスに近い水準に達した。
  • 1GBのデータセットの回復に単一スレッドで0.7秒、32GBのデータセットに8スレッドで13.8秒を要し、効率的なスケーラビリティを示した。
  • 300万頂点、1億1700万エッジを有する大規模なOrkutソーシャルネットワークグラフにおいて、低スレッド数ではDRAM再構築よりMontageの回復が速く、高スレッド数では同等の性能を示した。
  • Montageは、関数的更新やログベース再再生に最適化された既存の特殊用途永続的データ構造を上回るか、同等のパフォーマンスを発揮した。
  • 本システムにより、障害モードが独立した信頼できないアプリケーション間で永続的データ構造を安全に共有可能となり、NVM時代のシステムにおけるファイルベース永続化の代替案として実現可能であることが示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。