Skip to main content
QUICK REVIEW

[論文レビュー] A Research Software Engineering Workflow for Computational Science and Engineering

Tomislav Marić, Dennis Gläser|arXiv (Cornell University)|Aug 15, 2022
Scientific Computing and Data Management被引用数 22
ひとこと要約

本論文は、大学を拠点とする CSE プロジェクト向けの軽量な RSE ワークフローを提案し、バージョン管理、ビルドシステム、コード・データ・出版物の相互リンク、課題追跡、CI、コンテナ化、TDD、HPC ベースの評価を統合して、研究ソフトウェアの再現性と持続可能性を向上させる。

ABSTRACT

University research groups in Computational Science and Engineering (CSE) generally lack dedicated funding and personnel for Research Software Engineering (RSE), which, combined with the pressure to maximize the number of scientific publications, shifts the focus away from sustainable research software development and reproducible results. The neglect of RSE in CSE at University research groups negatively impacts the scientific output: research data - including research software - related to a CSE publication cannot be found, reproduced, or re-used, different ideas are not combined easily into new ideas, and published methods must very often be re-implemented to be investigated further. This slows down CSE research significantly, resulting in considerable losses in time and, consequentially, public funding. We propose a RSE workflow for Computational Science and Engineering (CSE) that addresses these challenges, that improves the quality of research output in CSE. Our workflow applies established software engineering practices adapted for CSE: software testing, result visualization, and periodical cross-linking of software with reports/publications and data, timed by milestones in the scientific publication process. The workflow introduces minimal work overhead, crucial for university research groups, and delivers modular and tested software linked to publications whose results can easily be reproduced. We define research software quality from a perspective of a pragmatic researcher: the ability to quickly find the publication, data, and software related to a published research idea, quickly reproduce results, understand or re-use a CSE method, and finally extend the method with new research ideas.

研究の動機と目的

  • 大学の CSE グループにおける持続可能な研究ソフトウェアの必要性を喚起し、それを再現可能な結果と出版物と結びつける。
  • 小規模チームの負担を最小限に抑えつつ、確立されたソフトウェア工学実践をCSEに適用する。
  • 見つけやすさ、再現性、再利用性を核とした実用的な研究ソフトウェア品質の概念を定義する。
  • 出版物のマイルストーンと拡張・統合可能な軽量なワークフローの概要を提示する。

提案手法

  • ソフトウェア工学実践(テスト、可視化、相互リンク)をCSEに適用し、科学論文プロセスのマイルストーンに結びつける。
  • 既存のオープンソースツール(VCS、ビルドシステム、PID ベースの相互リンク、CI、コンテナ化)に基づく最小限から完全なワークフローを提案する。
  • 研究アイデアを出版マイルストーンに合わせる分岐モデルを定義し、再現可能な状態を捉えるために Git とタグを使用する。
  • 出版物、ソフトウェア、データセットの相互リンクを永続識別子(PIDs)で導入し、見つけやすさと再現性を高める。
  • HPC ベースの自動定量化と可視化が、パフォーマンスまたは数値品質の劣化を早期に検出できる方法を論じる。

実験結果

リサーチクエスチョン

  • RQ1小規模な大学の CSE チームに対して、最小限で低オーバーヘッドの RSE ワークフローをどのように設計できるか?
  • RQ2研究ソフトウェアと結果の見つけやすさ、アクセス性、相互運用性、再現性を容易にするツールとプロセスはどのようなものか?
  • RQ3出版マイルストーンをソフトウェア開発とデータ管理に統合して再現性を支援するには?
  • RQ4学術界で長期的な研究ソフトウェアを維持するうえで、相互リンク(ソフトウェア、データ、出版物)の役割は何か?

主な発見

  • VCS、ビルドシステム、相互リンク、PID ベースのリンクを用いた最小限のワークフローは、再現性を向上させるために小規模な大学グループに採用できる。
  • 出版物、ソフトウェア、データを PID で相互リンクすることは、研究成果の見つけやすさ、アクセス性、再利用性を確保するのに役立つ。
  • CIとテストを通じた自動化、HPC のテスト実行を含むは、時間とともにパフォーマンスや数値品質の劣化を検出するのに役立つ。
  • 出版物を軸としたマイルストーンモデルは、研究ワークフローへのテストと統合の統合の実用的な基点を提供する。
  • コンテナ化と即用可能な計算環境は、多様な HPC システム間で再現可能な実験に有益である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。