[논문 리뷰] Improving Reproducibility in Machine Learning Research (A Report from the NeurIPS 2019 Reproducibility Program)
이 논문은 NeurIPS 2019의 재현성 프로그램을 문서화하며, 코드 제출 정책, 재현성 도전, ML 재현성 체크리스트를 상세히 다루고, 커뮤니티 채택 및 리뷰 품질에 대한 예비 효과를 보고합니다.
One of the challenges in machine learning research is to ensure that presented and published results are sound and reliable. Reproducibility, that is obtaining similar results as presented in a paper or talk, using the same code and data (when available), is a necessary step to verify the reliability of research findings. Reproducibility is also an important step to promote open and accessible research, thereby allowing the scientific community to quickly integrate new findings and convert ideas to practice. Reproducibility also promotes the use of robust experimental workflows, which potentially reduce unintentional errors. In 2019, the Neural Information Processing Systems (NeurIPS) conference, the premier international conference for research in machine learning, introduced a reproducibility program, designed to improve the standards across the community for how we conduct, communicate, and evaluate machine learning research. The program contained three components: a code submission policy, a community-wide reproducibility challenge, and the inclusion of the Machine Learning Reproducibility checklist as part of the paper submission process. In this paper, we describe each of these components, how it was deployed, as well as what we were able to learn from this initiative.
연구 동기 및 목표
- ML 논문과 함께 코드, 데이터 및 산출물의 공유를 권장하여 투명성 촉진.
- 재현성 관행이 논문 품질과 리뷰어 경험에 미치는 영향 평가.
- 재현성 도전 및 체크리스트에 대한 커뮤니티 참여 탐색.
- ML 장소 전반에서 재현성 관행의 광범위한 채택을 알리기 위한 가이드라인 제공.
제안 방법
- NeurIPS 2019 재현성 프로그램의 세 가지 구성요소: 코드 제출 정책, 재현성 도전, ML 재현성 체크리스트를 설명.
- 초 submission 및 camera-ready 단계에서 체크리스트를 구현하여 응답 변화 분석.
- OpenReview 및 공개 재현성 보고서를 활용하여 투명성과 재현 촉진.
- 코드 및 체크리스트 응답과 관련 논문 결과에 대한 리뷰어 참여도 분석.
- 정책 효과의 맥락화로 컨퍼런스 간 코드 가용성 및 수락률 비교.
실험 결과
연구 질문
- RQ1코드 제출 정책이 심사자 행동과 논문 채택에 미치는 영향은 무엇인가?
- RQ2재현성 도전에의 참여가 재현 노력과 투명성 증가로 이어지는가?
- RQ3ML 재현성 체크리스트의 저자와 심사자에게의 유용성은 어느 정도이며 논문 품질과 상관관계가 있는가?
- RQ4ML 장소에서 재현성 관행 채택에 대한 더 넓은 함의는 무엇인가?
주요 결과
- 카메라-ready까지 코드 제출 참여가 약 75%로 증가했으며, 심사자들은 가능할 때 코드를 자주 확인했다.
- 코드에 대해 자문하거나 접근 가능한 심사자는 논문에 더 높은 점수를 부여하는 경향이 있었다(통계적 연관성 관찰).
- 재현성 도전은 참여와 보고가 증가했으며, NeurIPS 2019에서 173편이 73개 기관에서 재현을 주장했다.
- 체크리스트 응답은 약 3분의 1의 심사자가 유용하다고 응답했고, 유용성은 더 높은 논문 점수와 심사자 자신감과 상관관계가 있었다.
- 전반적으로 컨퍼런스 제출이 증가했고(~40%), 재현성 이니셔티브로 인한 관심 저하가 없었음을 시사.
- 제출 또는 camera-ready 단계에서 다수의 저자가 코드를 제공하여 산출물에 대한 개방성이 커지고 있음을 시사.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.