Skip to main content
QUICK REVIEW

[论文解读] TeraScale SneakerNet: Using Inexpensive Disks for Backup, Archiving, and Data Exchange

Jim Gray, Wyman Chong|ArXiv.org|Aug 7, 2002
Image Processing and 3D Reconstruction被引用 32
一句话总结

本文提出 TeraScale SneakerNet,一种经济高效的超大规模数据集传输方法,通过使用廉价、自包含的存储模块(每个模块配备GHz处理器、1GB内存、千兆以太网和1TB硬盘)实现,每单位成本约2000美元。该系统通过在不同站点之间物理运送硬盘,实现高效备份、归档和数据交换,利用低成本存储和本地网络替代昂贵的广域网,已在斯隆数字天空调查的跨大西洋数据传输中得到实际验证。

ABSTRACT

Large datasets are most economically trnsmitted via parcel post given the current economics of wide-area networking. This article describes how the Sloan Digital Sky Survey ships terabyte scale datasets both within the US and to Europe and Asia. We 3GT storage bricks (Ghz processor, GB ram, GbpsEthernet, TB disk) for about 2k$ each. These bricks act as database servers on the LAN. They are loaded at one site and read at the second site. The paper describes the bricks, their economics, and some software issues that they raise.

研究动机与目标

  • 解决通过广域网传输大规模数据集所面临的高成本和低效率问题。
  • 为超大规模数据集的备份、归档和数据交换开发一种可扩展、低成本的解决方案。
  • 评估使用廉价、自包含存储模块进行高容量数据传输的可行性与性能。
  • 证明在大规模科学数据分发中,物理数据传输(“鞋带网络”)的实际可行性。

提出的方法

  • 设计并部署3GT存储模块——每个模块配备GHz处理器、1GB内存、千兆以太网和1TB硬盘,每单位成本约2000美元。
  • 将模块作为独立数据库服务器在局域网(LAN)上运行,并在源站点加载数据。
  • 通过标准快递服务将物理硬盘运送到目标站点以实现数据访问和集成。
  • 实现软件堆栈以管理模块上的数据加载、完整性检查和网络访问。
  • 利用目标站点现有的网络基础设施读取和使用运送到的硬盘中的数据。
  • 使用斯隆数字天空调查向美国及国际站点传输真实数据来验证该方法。

实验结果

研究问题

  • RQ1廉价、自包含的存储模块能否实现超大规模数据集的经济高效传输?
  • RQ2与广域网传输相比,物理数据传输在成本和性能方面对大规模数据集表现如何?
  • RQ3在分布式科学环境中部署此类系统面临哪些实际挑战和软件需求?
  • RQ4该方法能否扩展以支持大规模科学数据集的定期、可靠备份和归档?

主要发现

  • TeraScale SneakerNet 方法通过利用物理运输替代昂贵的广域网,显著降低了超大规模数据集的传输成本。
  • 每个存储模块成本约为2000美元,具备足够的处理能力、内存和存储容量,可作为独立数据库服务器运行。
  • 该系统成功实现了斯隆数字天空调查美国站点与欧洲及亚洲合作伙伴之间的数据交换。
  • 该方法在备份、归档和数据交换方面均表现有效,证明了其在大规模科学数据分发中的可行性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。