Skip to main content
QUICK REVIEW

[논문 리뷰] Grid Data Management in Action: Experience in Running and Supporting Data Management Services in the EU DataGrid Project

Heinz Stockinger, Flavia Donno|ArXiv.org|2003. 06. 02.
Distributed and Parallel Computing Systems참고 문헌 7인용 수 30
한 줄 요약

이 논문은 유럽 데이터그리드(EDG) 프로젝트에 구축된 1세대 데이터 관리 서비스인 GDMP와 edg-replica-manager의 설계, 구현 및 운영 경험을 제시한다. 이들은 글로버스 미들웨어와의 통합, 유럽과 미국의 사전 생산 환경에서의 활용, 그리고 EDG 릴리스 2.0에서의 차세대 복제 도구 아키텍처 설계에 영향을 준 교훈을 상세히 기술한다.

ABSTRACT

In the first phase of the EU DataGrid (EDG) project, a Data Management System has been implemented and provided for deployment. The components of the current EDG Testbed are: a prototype of a Replica Manager Service built around the basic services provided by Globus, a centralised Replica Catalogue to store information about physical locations of files, and the Grid Data Mirroring Package (GDMP) that is widely used in various HEP collaborations in Europe and the US for data mirroring. During this year these services have been refined and made more robust so that they are fit to be used in a pre-production environment. Application users have been using this first release of the Data Management Services for more than a year. In the paper we present the components and their interaction, our implementation and experience as well as the feedback received from our user communities. We have resolved not only issues regarding integration with other EDG service components but also many of the interoperability issues with components of our partner projects in Europe and the U.S. The paper concludes with the basic lessons learned during this operation. These conclusions provide the motivation for the architecture of the next generation of Data Management Services that will be deployed in EDG during 2003.

연구 동기 및 목표

  • 대규모 과학적 데이터 배포를 위한 확장성 있고, 보안이 강화되며 상호운용성이 보장된 그리드 환경에서의 데이터 관리 시스템을 개발하고 구현하는 것.
  • 지리적으로 분산된 사이트 간에 최소한의 사용자 간섭으로 효율적이고 신뢰성 있고 원자적인 파일 복제를 지원하는 것.
  • 유럽과 미국의 기존 그리드 미들웨어(Globus) 및 파artner 프로젝트(LCG, PPDG, DataTAG 등)와의 상호운용성을 보장하는 것.
  • 실제 테스트베드 및 생산 유사 환경에서의 사용을 통해 데이터 관리 컴포넌트를 정교화하는 것.
  • 사용자 피드백과 운영 통찰을 수집하여 EDG 릴리스 2.0에서의 차세대 데이터 관리 서비스 설계를 이끄는 것.

제안 방법

  • GridFTP를 사용한 보안적이고 고성능 파일 전송을 위한 글로버스 미들웨어 스택을 기반으로 한 클라이언트-서버 아키텍처를 구현하였다.
  • SE 간 복제를 위한 클라이언트 측 도구로 그리드 데이터 미러링 팩키지(GDMP)를 개발하였으며, 이후 서버 측 컴포넌트와 다수의 VO 지원 기능을 추가로 구현하였다.
  • Globus 기반의 복제 관리 서비스인 edg-replica-manager를 구축하였으며, Globus 복제 카탈로그와 통합되어 원자적인 복제 트랜잭션을 지원하였다.
  • 복제 카탈로그를 사이트 간 논리적 및 물리적 파일 위치 추적을 위한 중심 메타데이터 저장소로 통합하였다.
  • 대규모 데이터 처리를 지원하기 위해 스토리지 서비스 인터페이스를 통해 대량 스토리지 시스템(디스크/테이프)과의 상호작용을 가능하게 하였다.
  • EDG, 월드그리드, LCG-0, ATLAS/CMS 스트레스 테스트를 포함한 다중 사이트 테스트베드에 도구를 구축하여 확장성과 상호운용성 검증을 수행하였다.

실험 결과

연구 질문

  • RQ1다양한 그리드 사이트에 걸쳐 대규모 과학적 워크로드를 지원하기 위해 확장성 있고 보안이 강화된 데이터 복제 시스템을 어떻게 아키텍처화할 수 있는가?
  • RQ2기존 그리드 미들웨어(Globus 등)와의 통합 및 국제 협업 간의 상호운용성을 보장하기 위해 데이터 관리 도구를 통합할 때의 주요 과제는 무엇인가?
  • RQ3사전 생산 환경에서의 운영 경험은 차세대 데이터 관리 서비스 설계에 어떻게 영향을 주는가?
  • RQ4장애 내성, 구성 복잡성, 신뢰성 측면에서 클라이언트 측 전용 도구(GDMP)와 완전한 클라이언트-서버 솔루션(edg-replica-manager) 간의 상충 관계는 무엇인가?
  • RQ5다양한 사용자 요구사항을 가진 복잡한 다중 사이트 테스트베드를 지원하기 위해 필요한 구성 및 사용성 개선 사항은 무엇인가?

주요 결과

  • GDMP와 edg-replica-manager 도구는 ATLAS, CMS, LHCb 스트레스 테스트를 포함한 사전 생산 환경에서 성공적으로 배포되고 사용되어 운영 가능성과 검증되었다.
  • CERN, 페르밀라브, 이탈리아, 프랑스 등 4개 이상의 사이트 간에 보안적이고 효율적인 복제를 수행하였으며, 파일 전송은 GridFTP를 사용하고 메타데이터는 중앙 복제 카탈로그에서 관리되었다.
  • 파트너 프로젝트(LCG, 월드그리드 등)와의 상호운용성이 확보되어 국제적 범위의 배포 및 도구 호환성 검증이 이루어졌다.
  • 운영 경험을 통해 도구의 복잡한 구성 옵션이 사용성 문제를 야기함을 확인하였으며, 향후 릴리스에서 단순화 작업이 추진되었다.
  • edg-replica-manager 2.x에서 복제 위치 서비스(RLS)와 메타데이터 카탈로그 통합이 이루어져 서비스 탐색성과 확장성이 향상되었다.
  • 사용자 커뮤니티의 피드백을 바탕으로 EDG 릴리스 2.0에 배포될 차세대 서비스 설계가 이루어졌으며, 이는 최적화 서비스 및 향상된 메타데이터 관리 기능을 포함한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.