Skip to main content
QUICK REVIEW

[论文解读] A Distributed Metadata Management, Data Discovery and Access System

Giri Prakash, Ranjeet Devarakonda|arXiv (Cornell University)|Oct 12, 2010
Advanced Computational Techniques and Applications被引用 1
一句话总结

Mercury 是一个分布式的元数据管理系统,它将全球分布的数据源中的元数据聚合到一个中心化索引中,通过字段查询、空间查询和时间查询,实现对多样化存储库的快速、统一搜索。它通过支持多种元数据格式、与 Google 地图集成以支持地理空间查询,并通过 RSS 提供结果,从而提升数据发现能力,同时在源系统中保留数据所有权。

ABSTRACT

Mercury is a federated metadata harvesting, search and retrieval tool based on both open source and software developed at Oak Ridge National Laboratory. It was originally developed for NASA, and the Mercury development consortium now includes funding from NASA, USGS, and DOE. A major new version of Mercury was developed during 2007. This new version provides orders of magnitude improvements in search speed, support for additional metadata formats, integration with Google Maps for spatial queries, support for RSS delivery of search results, among other features. Mercury provides a single portal to information contained in disparate data management systems. It collects metadata and key data from contributing project servers distributed around the world and builds a centralized index. The Mercury search interfaces then allow the users to perform simple, fielded, spatial and temporal searches across these metadata sources. This centralized repository of metadata with distributed data sources provides extremely fast search results to the user, while allowing data providers to advertise the availability of their data and maintain complete control and ownership of that data.

研究动机与目标

  • 解决数据分散在不同、分布式的数据库管理系统中难以发现的问题。
  • 提供一个中心化的元数据索引,以实现在异构元数据格式之间的高效、可扩展搜索。
  • 支持高级搜索功能,包括空间和时间查询,同时不损害数据所有权。
  • 使数据提供方可完全控制其数据,同时通过统一门户发布其数据的可用性。
  • 通过与 Google 地图和 RSS 交付等工具的集成,提升搜索性能和可用性。

提出的方法

  • Mercury 使用在橡树岭国家实验室开发的开放标准和软件,从全球范围内的分布式项目服务器中采集元数据。
  • 它构建一个中心化的元数据和关键数据索引,实现对所有源的快速搜索。
  • 该系统支持多种元数据格式,确保在科学数据存储库之间具有广泛的互操作性。
  • 通过与 Google 地图的集成,支持空间查询,使用户能够按地理位置进行搜索。
  • 搜索结果通过 RSS 订阅馈送提供,支持实时更新和内容分发。
  • 该架构在源系统中保持数据所有权,仅将元数据采集并集中索引以支持发现。

实验结果

研究问题

  • RQ1如何高效地聚合和索引来自分布式、异构数据源的元数据,以实现统一发现?
  • RQ2哪些技术能够实现在大规模、地理分布的元数据存储库中实现亚秒级的搜索性能?
  • RQ3在联邦式元数据系统中,如何有效支持空间和时间查询?
  • RQ4哪些机制可确保数据提供方可完全控制和拥有数据,同时支持发现?
  • RQ5如何通过与 Google 地图和 RSS 等外部工具的集成,提升可用性和数据访问性?

主要发现

  • 与之前版本相比,Mercury 在搜索速度上实现了数量级的提升,支持近乎实时的查询响应。
  • 该系统支持广泛的元数据格式,显著增强了在多样化科学数据存储库之间的互操作性。
  • 与 Google 地图的集成使空间查询得以有效实现,用户可按地理区域搜索数据。
  • 通过 RSS 提供搜索结果,支持用户和应用程序实现自动化、实时的数据发现与监控。
  • 该架构成功将数据存储与元数据索引解耦,既保留了数据所有权,又实现了集中化发现。
  • 该系统提供单一门户,用于访问全球分布的数据源中的元数据,显著提升了数据的可访问性和可用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。