Skip to main content
QUICK REVIEW

[論文レビュー] Improving Reproducibility in Machine Learning Research (A Report from the NeurIPS 2019 Reproducibility Program)

Joëlle Pineau, Philippe Vincent‐Lamarre|arXiv (Cornell University)|Mar 27, 2020
Explainable Artificial Intelligence (XAI)参考文献 20被引用数 201
ひとこと要約

この論文は NeurIPS 2019 の再現性プログラムを記録し、コード提出方針、再現性チャレンジ、ML 再現性チェックリストを詳述し、コミュニティの普及と査読品質への初期影響を報告している。

ABSTRACT

One of the challenges in machine learning research is to ensure that presented and published results are sound and reliable. Reproducibility, that is obtaining similar results as presented in a paper or talk, using the same code and data (when available), is a necessary step to verify the reliability of research findings. Reproducibility is also an important step to promote open and accessible research, thereby allowing the scientific community to quickly integrate new findings and convert ideas to practice. Reproducibility also promotes the use of robust experimental workflows, which potentially reduce unintentional errors. In 2019, the Neural Information Processing Systems (NeurIPS) conference, the premier international conference for research in machine learning, introduced a reproducibility program, designed to improve the standards across the community for how we conduct, communicate, and evaluate machine learning research. The program contained three components: a code submission policy, a community-wide reproducibility challenge, and the inclusion of the Machine Learning Reproducibility checklist as part of the paper submission process. In this paper, we describe each of these components, how it was deployed, as well as what we were able to learn from this initiative.

研究の動機と目的

  • 透明性を促進するために、ML 論文とともにコード、データ、アーティファクトの共有を奨励する。
  • 再現性の実践が論文の質と査読者体験に与える影響を評価する。
  • 再現性チャレンジとチェックリストへのコミュニティの関与を探る。
  • ML の場で再現性の実践を広く採用するための指針を提供する。

提案手法

  • NeurIPS 2019 再現性プログラムの3つの構成要素: コード提出方針、再現性チャレンジ、ML 再現性チェックリストを説明する。
  • 回答変更を分析するために初回提出とカメラレディ段階でチェックリストを実施する。
  • 透明性と再現を促進するために OpenReview と公開再現性レポートを使用する。
  • コードとチェックリストの回答と、それに関連する論文の成果に対する査読者の関与を分析する。
  • 方針の効果を文脈づけるために、会議間でコードの入手可能性と受理率を比較する。

実験結果

リサーチクエスチョン

  • RQ1コード提出方針が査読者の行動と論文受理にどのような影響を与えるか。
  • RQ2再現性チャレンジへの参加は再現努力と透明性を高めるか。
  • RQ3ML 再現性チェックリストは著者と査読者にとってどの程度有用で、論文の質と相関関係があるか。
  • RQ4ML 会場における再現性実践の採用についてのより広い影響は何か。

主な発見

Conference論文提出数論文受理率提出時のコード有無の割合カメラレディ時のコード有無の割合コード提出方針
NeurIPS 2018485620.8%<blank><50%>Authors may submit up to 100MB of supplementary material, such as proofs, derivations, data, or source code.
ICML 2019342422.6%36%67%To foster reproducibility, we highly encourage authors to submit code. Reproducibility of results and easy availability of code will be taken into account in the decision-making process.
NeurIPS 2019674321.1%40%74.4%We expect (but not require) accompanying code to be submitted with accepted papers that contribute and present experiments with a new algorithm. See Appendix, Fig. 7
  • カメラレディまでにコード提出への参加が約75%に上昇し、査読者はコードが利用可能な場合は頻繁に参照していた。
  • コードを参照したりアクセスできた査読者は、論文により高いスコアを割り当つ傾向があった(統計的関連が観察された)。
  • 再現性チャレンジは参加と報告が増え、NeurIPS 2019 では 173 論文が 73 施設で再現と宣言された。
  • チェックリストの回答は、約3分の1の査読者が有用と感じ、有用性は論文スコアと査読者の自信の高さと相関した。
  • 全体として会議の提出は増加(約40%)し、再現性イニシアチブによる関心の低下は見られなかった。
  • 提出時またはカメラレディ段階でコードを提供する著者の割合が高く、アーティファクトの公開に対する意欲が高まっていることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。