[论文解读] Lsst Data Management: Building The Data System For The Era Of Petascale Optical Astronomy
本文介绍了LSST数据管理(DM)系统,这是一个可扩展的开源软件堆栈,旨在将每晚15 TB的光学巡天数据实时处理为警报,并生成11次多年期数据发布。该系统从零开始采用现代软件工程实践,可实现对宽场时域科学中海量天文数据的自动化、高性能处理。
The Large Synoptic Survey Telescope (LSST) is a large-aperture, wide-field, ground-based survey system that will image the sky in six optical bands from 320 to 1050 nm, uniformly covering approximately $18,000$deg$^2$ of the sky over 800 times. The LSST is currently under construction on Cerro Pachón in Chile, and expected to enter operations in 2022. Once operational, the LSST will explore a wide range of astrophysical questions, from discovering "killer" asteroids to examining the nature of Dark Energy. The LSST will generate on average 15 TB of data per night, and will require a comprehensive Data Management system to reduce the raw data to scientifically useful catalogs and images with minimum human intervention. These reductions will result in a real-time alert stream, and eleven data releases over the 10-year duration of LSST operations. To enable this processing, the LSST project is developing a new, general-purpose, high-performance, scalable, well documented, open source data processing software stack for O/IR surveys. Prototypes of this stack are already capable of processing data from existing cameras (e.g., SDSS, DECam, MegaCam), and form the basis of the Hyper-Suprime Cam (HSC) Survey data reduction pipeline.
研究动机与目标
- 设计一个全面的自动化数据管理系统,能够处理LSST巡天产生的海量数据。
- 将原始LSST数据减少为科学上有用的星表和图像,最大限度减少人工干预,确保在观测后60秒内生成实时警报。
- 通过定期重新处理,生成统一、校准一致且自洽的数据发布(DR),以支持长期科学分析。
- 提供基础设施和工具,用于创建高级数据产品(第3级),而无需用户本地存储PB级数据集。
- 通过采用社区认可的标准和开源原则,确保广泛社区访问软件和数据。
提出的方法
- 实施三级数据处理流水线:第1级用于实时警报生成,第2级用于定期重新处理以生成数据发布,第3级用于增值产品。
- 开发一个通用、高性能、开源的软件堆栈,使用Python和C++编写,配合SWIG封装,强调模块化、测试和文档化。
- 采用分布式、无共享数据库系统(Qserv),并在150个节点的集群上测试,处理550亿行数据和30 TB模拟数据。
- 借鉴先前巡天(如SDSS、DECam、HSC)中经过验证的数据还原技术,并针对LSST的规模和观测计划进行适配。
- 应用新型图像共拼接技术,如“背景匹配”,以提升动态范围并保留共拼接图像中的弥散结构。
- 将软件堆栈集成到现有巡天(如Hyper-Suprime Cam巡天)中,并在真实和模拟的LSST数据上进行验证。
实验结果
研究问题
- RQ1如何在每晚处理15 TB原始光学数据的同时,实现子60秒延迟的实时警报生成?
- RQ2为确保面向海量天文数据的可扩展性、可维护性和高性能,需要哪些架构和软件工程实践?
- RQ3如何在800次观测覆盖18,000平方度的范围内实现统一的测光和天球测量校准?
- RQ4开源、社区驱动的软件在支持大规模巡天长期、可重复的数据分析中发挥什么作用?
- RQ5如何在不需本地存储PB级数据的情况下,实现用户对大规模数据集的访问?
主要发现
- LSST DM系统已成功使用原型软件堆栈处理来自现有巡天(如SDSS、CFHT-LS、DECam)的模拟和真实数据。
- Qserv数据库原型已在150个节点的集群上完成验证,处理550亿行数据和30 TB模拟LSST数据,证明了其可扩展性。
- LSST软件堆栈原型已成功生成SDSS Stripe 82数据的高动态范围共拼接图像,通过先进的背景匹配技术保留了弥散结构。
- 该软件堆栈已成为Hyper-Suprime Cam巡天数据处理流水线的基础,并成功支持了两次数据发布。
- 系统实现了在观测后60秒内生成实时警报,满足时域天文学的严格要求。
- 软件堆栈的开源特性(采用GPLv3许可证)确保了其在LSST之外其他O/IR巡天中的长期使用和可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。