Skip to main content
QUICK REVIEW

[論文レビュー] AdapTBF: Decentralized Bandwidth Control via Adaptive Token Borrowing for HPC Storage

Md Hasanur Rashid, Dong Dai|arXiv (Cornell University)|Feb 25, 2026
Advanced Data Storage Technologies被引用数 0
ひとこと要約

AdapTBF は Lustre 上で分散型のワーク-conserving トークン借用機構を導入し、ストレージサーバー上のアプリごとの I/O 帯域幅を適応的に調整して利用率と公平性を改善します。

ABSTRACT

Modern high-performance computing (HPC) applications run on compute resources but share global storage systems. This design can cause problems when applications consume a disproportionate amount of storage bandwidth relative to their allocated compute resources. For example, an application running on a single compute node can issue many small, random writes and consume excessive I/O bandwidth from a storage server. This can hinder larger jobs that write to the same storage server and are allocated many compute nodes, resulting in significant resource waste. A straightforward solution is to limit each application's I/O bandwidth on storage servers in proportion to its allocated compute resources. This approach has been implemented in parallel file systems using Token Bucket Filter (TBF). However, strict proportional limits often reduce overall I/O efficiency because HPC applications generate short, bursty I/O. Limiting bandwidth can waste server capacity when applications are idle or prevent applications from temporarily using higher bandwidth during bursty phases. We argue that I/O control should maximize per-application performance and overall storage efficiency while ensuring fairness (e.g., preventing small jobs from blocking large-scale ones). We propose AdapTBF, which builds on TBF in modern parallel file systems (e.g., Lustre) and introduces a decentralized bandwidth control approach using adaptive borrowing and lending. We detail the algorithm, implement AdapTBF in Lustre, and evaluate it using synthetic workloads modeled after real-world scenarios. Results show that AdapTBF manages I/O bandwidth effectively while maintaining high storage utilization, even under extreme conditions.

研究の動機と目的

  • 共有 HPC ストレージシステムでのストレージ I/O 不公平・帯域幅の独占を防ぐ必要性を動機づける。
  • ストレージターゲット(OST)ごとに分散型・ワーク-conserving な I/O 帯域制御フレームワークを提案する。
  • 全体的なストレージ利用率と公平性を最大化する適応的トークン借用アルゴリズムを開発・実装する。
  • 合成・実世界に着想を得たワークロードで Lustre 上の AdapTBF を評価し、スループット・利用率・公平性を評価する。

提案手法

  • Lustre Token Bucket Filter に適応的なトークン借用・貸借メカニズムを拡張する。
  • 各 Object Storage Target(OST)上でローカル統計を用いてトークンを割り当て、AdapTBF を独立して動作させる。
  • 初期の優先度ベース割り当て、余剰トークンの再分配、借用トークンの再補償という三段階のトークン割り当てを用いる。
  • 剰余数(Largest Remainder)と借用記録を用いて、公平性と長期的な正確性を維持する。
  • データ収集とアプリケーションレベルの TBF ルール更新を調整する System Stats Controller と Rule Management Daemon を実装する。
  • 適応的借用の概念を一般的なリソース割当手法として焦点を当て、Lustre 以外への適用性も示す。

実験結果

リサーチクエスチョン

  • RQ1AdapTBF は各ストレージターゲットでワーク-conserving のまま、優先度に比例した I/O 帯域を達成できるか?
  • RQ2適応的トークン借用はバースト性や変化するワークロード下でストレージ利用率と全体の I/O スループットにどのように影響するか?
  • RQ3分散型・OST ごとの帯域制御は大規模な HPC 導入で効果的にスケールし、アプリ間の公平性を維持できるか?
  • RQ4トークン再分配と再補償戦略が長期的な公平性と効率性に与える影響は何か?

主な発見

  • AdapTBF はジョブの優先度に比例して I/O トークンを割り当て、アクティブなジョブ集合の変化に応じて適応する。
  • 余剰トークンの再分配と借用者への再補償によってワークが保たれ、利用率を改善する。
  • CloudLab 上の Lustre による評価では、さまざまなワークロード下で高いストレージ利用率と帯域の公平性を維持できた。
  • 帯域制御なし・静的帯域と比較して、AdapTBF は動的な I/O 要求に沿った適応的なトークン割り当てを示す。
  • AdapTBF の設計は OST ごとにモジュール化されており、Lustre を超えた他の分散ストレージシステムにも一般化可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。