QUICK REVIEW

[論文レビュー] A Step Toward Quantifying Independently Reproducible Machine Learning Research

Edward Raff|arXiv (Cornell University)|Sep 14, 2019

Scientific Computing and Data Management被引用数 57

ひとこと要約

この論文は著者のコードを使わずに255のML論文（2012–2017）を手動で再現し、独立した再現性と相関する要因を経験的に定量化している。

ABSTRACT

What makes a paper independently reproducible? Debates on reproducibility center around intuition or assumptions but lack empirical results. Our field focuses on releasing code, which is important, but is not sufficient for determining reproducibility. We take the first step toward a quantifiable answer by manually attempting to implement 255 papers published from 1984 until 2017, recording features of each paper, and performing statistical analysis of the results. For each paper, we did not look at the authors code, if released, in order to prevent bias toward discrepancies between code and paper.

研究の動機と目的

著者の公開コードを使わず、ML論文の多様なセットを再現しようとすることで独立再現性を定量化する。
独立再現に成功するのと相関する論文の特徴を特定する。
再現性を向上させるための明確さと実践を導く経験的な指針を提供する。

提案手法

著者の公開コードに依存せず、2012–2017の255本のML論文を手動で再現した。
再現性を分析するために本文から26の論文特徴を収集した。
特徴の有意性を評価するためにノンパラメトリック統計検定（Mann–Whitney U、Chi-Squared、Kruskal–Wallis、Dunn）を使用した。
再現性を、独立して書かれたコードで検証できる論文の主張が過半数（75%+）であると定義した。
可読性、擬似コードの有無、計算リソースの必要性、著者の返信などの変数を横断して論文を比較した。
匿名化したデータを公開し、制限や潜在的な偏りについて議論した。

実験結果

リサーチクエスチョン

RQ1どの論文レベルの特徴が、論文が独立して再現可能であることと有意に相関するか。
RQ2可読性、アルゴリズムの難易度、ハイパーパラメータの開示と再現性への影響はどうなるか。
RQ3公表年または初回試行年は再現性の結果に影響を与えるか。
RQ4質問への著者の対応（例：回答）は再現を可能にする上でどのような役割を果たすか。

主な発見

255論文のうち162件（63.5%）が独立して再現可能で、93件はそうでなかった。
可読性は再現性と最も強い経験的関係を持つ。優れた可読性はすべてのケースで再現可能な結果をもたらした。
ハイパーパラメータの指定と正確な計算仕様は再現性と正の相関を示した。
表の数とハイパーパラメータの詳細の量は再現性と正の相関を持つ一方、1ページあたりの式の数は再現性と負の相関を持つ。
擬似コードの有無は再現性と可読性の関係にニュアンスがあり、コード風の詳細な説明は再現性を助ける。
質問への著者の返信は再現性を強く予測し、著者が回答すると再現率が高い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。