Skip to main content
QUICK REVIEW

[論文レビュー] Lsst Data Management: Building The Data System For The Era Of Petascale Optical Astronomy

Mario Jurić, Jeffrey Kantor|arXiv (Cornell University)|Oct 26, 2015
Astronomy and Astrophysical Research参考文献 9被引用数 93
ひとこと要約

本論文は、LSSTの光学赤外天文学調査から生じる15TB/日分のデータをリアルタイムアラートと11回の長期的データリリース(DR)に変換する、スケーラブルでオープンソースのソフトウェアスタックであるLSSTデータ管理(DM)システムを提示する。現代的なソフトウェア工学手法に基づいて構築された本システムは、広視野・時間領域天文学のためのペタスケール天体データの自動的かつ高性能な処理を可能にする。

ABSTRACT

The Large Synoptic Survey Telescope (LSST) is a large-aperture, wide-field, ground-based survey system that will image the sky in six optical bands from 320 to 1050 nm, uniformly covering approximately $18,000$deg$^2$ of the sky over 800 times. The LSST is currently under construction on Cerro Pachón in Chile, and expected to enter operations in 2022. Once operational, the LSST will explore a wide range of astrophysical questions, from discovering "killer" asteroids to examining the nature of Dark Energy. The LSST will generate on average 15 TB of data per night, and will require a comprehensive Data Management system to reduce the raw data to scientifically useful catalogs and images with minimum human intervention. These reductions will result in a real-time alert stream, and eleven data releases over the 10-year duration of LSST operations. To enable this processing, the LSST project is developing a new, general-purpose, high-performance, scalable, well documented, open source data processing software stack for O/IR surveys. Prototypes of this stack are already capable of processing data from existing cameras (e.g., SDSS, DECam, MegaCam), and form the basis of the Hyper-Suprime Cam (HSC) Survey data reduction pipeline.

研究の動機と目的

  • LSST調査によって生じるペタスケールのデータ量を処理できる包括的かつ自動化されたデータ管理システムを設計すること。
  • 人為的介入を最小限に抑えて、原始的LSSTデータを科学的に有用なカタログおよび画像に還元し、観測後60秒以内にリアルタイムアラートを生成すること。
  • 定期的な再処理を通じて、一貫性があり均一で校正済みのデータリリース(DR)を生み出し、長期的な科学的分析を可能にすること。
  • ユーザーがペタバイトスケールのデータセットをローカルに転送する必要なく、上位レベルのデータ製品(レベル3)を生成するためのインfraストラクチャおよびツールを提供すること。
  • コミュニティが承認した標準とオープンソースの原則に従ってソフトウェアおよびデータ配布を行うことで、広範なコミュニティのアクセスを確保すること。

提案手法

  • リアルタイムアラート生成のためのレベル1、データリリースへの定期的再処理のためのレベル2、付加価値製品のためのレベル3を備えた3段階のデータ処理パイプラインを実装すること。
  • PythonおよびC++を用いた汎用的で高性能でオープンソースのソフトウェアスタックを構築し、SWIGラッパーを統合することで、モularity、テスト、ドキュメンテーションを重視すること。
  • 分散型で共有リソースのないデータベースシステム(Qserv)を採用し、150ノードのクラスタで550億行、30TBのシミュレーテッドLSSTデータを用いて検証した。
  • 既存の調査(例:SDSS、DECam、HSC)で実証済みのデータ還元技術を活用し、LSSTの規模と観測サイクルに適合させる。
  • 画像の重ね合わせに「バックグラウンドマッチング」といった新規技術を適用し、合成画像におけるダイナミックレンジを向上させ、拡散構造を保持すること。
  • 既存の調査(例:Hyper-Suprime Cam調査)にソフトウェアスタックを統合し、実データおよびシミュレーテッドLSSTデータを用いて検証した。

実験結果

リサーチクエスチョン

  • RQ11日15TBの原始的光学データを、リアルタイムアラート生成に60秒未満の遅延で効率的に処理するにはどうすればよいか?
  • RQ2ペタスケール天体データ処理に必要なスケーラビリティ、保守性、パフォーマンスを確保するには、どのようなアーキテクチャ的およびソフトウェア工学的実践が必要か?
  • RQ3800回以上観測された18,000平方度にわたる領域で、一貫性のある光度および位置測定の校正をどのように達成できるか?
  • RQ4オープンソースでコミュニティ主導のソフトウェアは、大規模調査の長期的かつ再現可能なデータ分析をどのように可能にするか?
  • RQ5ペタバイトスケールのデータセットをローカルに保存する必要なく、ユーザーが大規模データセットにアクセスするにはどうすればよいか?

主な発見

  • LSST DMシステムは、プロトタイプソフトウェアスタックを用いて、既存調査(例:SDSS、CFHT-LS、DECam)のシミュレーテッドおよび実データを正常に処理した。
  • Qservデータベースプロトタイプは、150ノードのクラスタで550億行、30TBのシミュレーテッドLSSTデータを用いて検証され、スケーラビリティを示した。
  • LSSTソフトウェアスタックプロトタイプは、SDSS Stripe 82データの高ダイナミックレンジ合成を実現し、高度なバックグラウンドマッチングにより拡散構造を保持した。
  • ソフトウェアスタックは、Hyper-Suprime Cam調査のデータ処理パイプラインの基盤を形成し、2回の成功したデータリリースを可能にした。
  • システムは、観測後60秒以内にリアルタイムアラートを生成し、時間領域天文学における厳しい要件を満たした。
  • ソフトウェアスタックはGPLv3ライセンスで公開されており、LSSTを越えて他のO/IR調査の長期的利用および拡張性を保証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。