Skip to main content
QUICK REVIEW

[논문 리뷰] A Research Software Engineering Workflow for Computational Science and Engineering

Tomislav Marić, Dennis Gläser|arXiv (Cornell University)|2022. 08. 15.
Scientific Computing and Data Management인용 수 22
한 줄 요약

논문은 대학 기반 CSE 프로젝트를 위한 경량 RSE 워크플로우를 제안하고, 버전 관리, 빌드 시스템, 코드-데이터-발표 간 교차링크, 이슈 추적, CI, 컨테이너화, TDD, HPC 기반 평가를 통합하여 연구 소프트웨어의 재현성 및 지속 가능성을 향상시킵니다.

ABSTRACT

University research groups in Computational Science and Engineering (CSE) generally lack dedicated funding and personnel for Research Software Engineering (RSE), which, combined with the pressure to maximize the number of scientific publications, shifts the focus away from sustainable research software development and reproducible results. The neglect of RSE in CSE at University research groups negatively impacts the scientific output: research data - including research software - related to a CSE publication cannot be found, reproduced, or re-used, different ideas are not combined easily into new ideas, and published methods must very often be re-implemented to be investigated further. This slows down CSE research significantly, resulting in considerable losses in time and, consequentially, public funding. We propose a RSE workflow for Computational Science and Engineering (CSE) that addresses these challenges, that improves the quality of research output in CSE. Our workflow applies established software engineering practices adapted for CSE: software testing, result visualization, and periodical cross-linking of software with reports/publications and data, timed by milestones in the scientific publication process. The workflow introduces minimal work overhead, crucial for university research groups, and delivers modular and tested software linked to publications whose results can easily be reproduced. We define research software quality from a perspective of a pragmatic researcher: the ability to quickly find the publication, data, and software related to a published research idea, quickly reproduce results, understand or re-use a CSE method, and finally extend the method with new research ideas.

연구 동기 및 목표

  • 대학 CSE 그룹에서 지속 가능한 연구 소프트웨어의 필요성을 고취하고 이를 재현 가능한 결과 및 출판물과 연결합니다.
  • 작은 팀에 최소한의 오버헤드로 CSE에 기존 소프트웨어 엔지니어링 관행을 적용합니다.
  • 발견성, 재현성, 재사용성을 중심으로 한 연구 소프트웨어 품질의 실용적 개념을 정의합니다.
  • 발표 이정표와 확장 및 통합할 수 있는 경량 워크플로우 개요를 제시합니다.

제안 방법

  • 소프트웨어 엔지니어링 관행(테스트, 시각화, 교차링크)을 CSE에 적용하고 이를 과학 출판 과정의 이정표와 연결합니다.
  • 기존 오픈 소스 도구(VCS, 빌드 시스템, PID 기반 교차링크, CI, 컨테이너화)를 기반으로 최소에서 전체 워크플로우를 제안합니다.
  • 연구 아이디어를 출판 이정표와 정렬시키는 브랜칭 모델을 정의하고 재현 가능한 상태를 캡처하기 위해 Git과 태그를 사용합니다.
  • 발표물, 소프트웨어, 데이터세트의 지속 가능한 식별자(PIDs)로의 교차링크를 도입하여 발견성 및 재현성을 향상시킵니다.
  • HPC 기반 자동 정량화 및 시각화가 성능 또는 수치 품질 저하를 조기에 탐지할 수 있는 방법에 대해 논의합니다.

실험 결과

연구 질문

  • RQ1소규모 대학 CSE 팀을 위해 최소한의 오버헤드를 가진 RSE 워크플로우를 어떻게 설계할 수 있을까요?
  • RQ2연구 소프트웨어와 결과의 손쉬운 발견성, 접근성, 상호 운용성 및 재현성을 가능하게 하는 도구와 프로세스는 무엇인가요?
  • RQ3재현성을 지원하기 위해 출판 이정표를 소프트웨어 개발 및 데이터 관리와 어떻게 통합할 수 있나요?
  • RQ4학계에서 장기적으로 연구 소프트웨어를 유지하는 데 있어 교차링크(소프트웨어, 데이터, 출판물)의 역할은 무엇인가요?

주요 결과

  • VCS, 빌드 시스템, 교차링크, PID 기반 링크를 사용하는 최소한의 워크플로우를 소규모 대학 그룹이 채택하여 재현성을 개선할 수 있습니다.
  • 출판물, 소프트웨어, 데이터의 PIDs를 이용한 교차링크는 연구 산출물의 발견성, 접근성 및 재사용성을 보장하는 데 도움이 됩니다.
  • CI 및 테스트를 통한 자동화, HPC 테스트 실행을 포함하여 시간이 지남에 따라 성능 또는 수치 품질 저하를 감지하는 데 도움이 됩니다.
  • 출판 중심의 이정표 모델은 연구 워크플로우에 테스트 및 통합을 통합하기 위한 실용적인 기준점을 제공합니다.
  • 컨테이너화 및 즉시 사용 가능한 계산 환경은 다양한 HPC 시스템에서 재현 가능한 실험에 유익합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.