Skip to main content
QUICK REVIEW

[論文レビュー] Distributed Metadata with the AMGA Metadata Catalog

Nuno Santos, B. Koblitz|ArXiv.org|Apr 19, 2006
Distributed and Parallel Computing Systems参考文献 7被引用数 33
ひとこと要約

本論文は、gLiteミドルウェアスタック内のAMGAメタデータカタログを用いて、大規模データグリッドにおけるスケーラブルでフェイルセーフなメタデータカタログソリューションを提示する。データベースに依存しないレプリケーションおよびディストリビューションメカニズムを導入することで、バックエンドデータベースの変更を必要とせずに、地理的に分散したサイト間での効率的なメタデータアクセスを実現し、EGEEのような分散環境におけるパフォーマンスおよびレジリエンスを顕著に向上させる。

ABSTRACT

Catalog Services play a vital role on Data Grids by allowing users and applications to discover and locate the data needed. On large Data Grids, with hundreds of geographically distributed sites, centralized Catalog Services do not provide the required scalability, performance or fault-tolerance. In this article, we start by presenting and discussing the general requirements on Grid Catalogs of applications being developed by the EGEE user community. This provides the motivation for the second part of the article, where we present the replication and distribution mechanisms we have designed and implemented into the AMGA Metadata Catalog, which is part of the gLite software stack being developed for the EGEE project. Implementing these mechanisms in the catalog itself has the advantages of not requiring any special support from the relational database back-end, of being database independent, and of allowing tailoring the mechanisms to the specific requirements and characteristics of Metadata Catalogs.

研究の動機と目的

  • 大規模データグリッドにおける集中型メタデータカタログのスケーラビリティおよびフェイルセーフ性の制限を解決すること。
  • 数百の分散サイトにまたがる環境におけるEGEEユーザーコミュニティが求める、効率的なメタデータ発見を支援すること。
  • 下位のリレーショナルデータベースに依存しないレプリケーションおよびディストリビューションメカニズムを設計すること。
  • アクセスパターンおよびシステム要件に基づいて、メタデータディストリビューションに対する細かいつながりの制御を可能にすること。
  • 分散型でハイパフォーマンスを発揮するコンピューティング環境におけるメタデータサービスのパフォーマンスおよび信頼性を向上させること。

提案手法

  • AMGAカタログ内に直接レプリケーションメカニズムを設計・実装し、下位のRDBMSから分離すること。
  • メタデータが複数のカタログインスタンスにレプリケートされる分散アーキテクチャを採用し、可用性および負荷分散を向上させること。
  • アクセスローカリティおよびワークロード特性に基づいて、動的メタデータディストリビューションをサポートすること。
  • 競合解決および同期プロトコルを用いて、レプリカ間の一貫性を保証すること。
  • EGEEに類似した環境でのシームレスな展開を可能にするために、gLiteソフトウェアスタックに統合すること。
  • RDBMSレイヤーからのストレージ操作の抽象化により、データベースシステムの違いを問わずポータビリティを実現する。

実験結果

リサーチクエスチョン

  • RQ1大規模で地理的に分散したデータグリッドにおいて、メタデータカタログはどのように効果的にスケーリングできるか?
  • RQ2特殊なデータベース機能に依存せずに、メタデータサービスのフェイルセーフ性およびパフォーマンスをどのように向上できるか?
  • RQ3アプリケーションのアクセスパターンおよびシステム制約に応じて、メタデータディストリビューションをどのようにカスタマイズできるか?
  • RQ4分散メタデータカタログにおいて、一貫性、可用性、パーティション耐性のトレードオフは何か?
  • RQ5データベースに依存しないレプリケーションメカニズムは、メタデータカタログ内に効果的に実装可能であり、ポータビリティおよび保守性を向上させられるか?

主な発見

  • 提案されたレプリケーションおよびディストリビューションメカニズムにより、大規模データグリッドにおけるスケーラビリティおよびフェイルセーフ性が顕著に向上した。
  • データベースに依存しない実装が達成され、異なるRDBMSプラットフォームへの展開が変更なしに可能となった。
  • 局所的レプリケーションによりメタデータアクセスのパフォーマンスが向上し、リモートユーザーのレイテンシが低減した。
  • ネットワークパーティション下でも、効率的な同期によりレプリカ間の一貫性を維持できた。
  • アクセスパターンおよびワークロード要件に合わせて、メタデータ配置に対する細かいつながりの制御が可能となった。
  • gLiteスタック内での実装により、EGEEのようなプロジェクトにおける本番環境での実用的妥当性が示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。