QUICK REVIEW

[論文レビュー] Accounting for Variance in Machine Learning Benchmarks

Xavier Bouthillier, Pierre Delaunay|arXiv (Cornell University)|Mar 1, 2021

Adversarial Robustness in Machine Learning参考文献 55被引用数 40

ひとこと要約

本論文は機械学習ベンチマークにおける分散源をデータサンプリング、初期化、拡張、そしてハイパーパラメータ最適化として形式化し、それらが比較主張に与える実質的な影響を示し、改善を確実に検出するための戦略（ランダム化とリサンプリング）を提案する。より多くの変動を考慮した場合には、直感に反する51xの計算コスト削減が得られるとしている。

ABSTRACT

Strong empirical evidence that one machine-learning algorithm A outperforms another one B ideally calls for multiple trials optimizing the learning pipeline over sources of variation such as data sampling, data augmentation, parameter initialization, and hyperparameters choices. This is prohibitively expensive, and corners are cut to reach conclusions. We model the whole benchmarking process, revealing that variance due to data sampling, parameter initialization and hyperparameter choice impact markedly the results. We analyze the predominant comparison methods used today in the light of this variance. We show a counter-intuitive result that adding more sources of variation to an imperfect estimator approaches better the ideal estimator at a 51 times reduction in compute cost. Building on these results, we study the error rate of detecting improvements, on five different deep-learning tasks/architectures. This study leads us to propose recommendations for performance comparisons.

研究の動機と目的

MLパイプラインにおけるさまざまな乱数源がベンチマーク性能に与える影響を定量化する。
ハイパーパラメータ最適化を含む完全なベンチマークプロセスをモデル化し、性能推定への影響を理解する。
制約された計算リソースの下でベンチマーク比較の信頼性を向上させる実践的な推奨を提案する。
ベンチマークの分散の下でアルゴリズムAとBの真の改善を検出する方法を評価する。

提案手法

データ、初期化、拡張、およびハイパーパラメータ最適化に起因する分散をMLパイプラインでモデル化するためにHothorn ら（2005）の枠組みを拡張する。
完全な学習パイプラインを、Opt(Stv, lambda) に影響を与えるランダム変動 xiH と xiO を伴う確率過程として表現する。
データサンプリング分散を定量化するためにブートストラップサンプリングを用い、分類精度の二項モデルと比較する。
制御されたシードと予算の下で、複数のハイパーパラメータ最適化手法（ランダム探索、グリッド探索、ベイズ最適化）による分散を評価する。
全変動を組み込んだ場合と部分分散を組み込んだ場合の平均性能 mu の推定値がどのように変化するかを分析し、ベンチマーク設計への含意を導出する。

実験結果

リサーチクエスチョン

RQ1データサンプリングを超えるMLベンチマークにおける主な未制御の分散源は何か？
RQ2ハイパーパラメータ最適化は初期化やデータ拡張など他の分散源と比較してベンチマーク性能の分散にどのように寄与するか？
RQ3複数の変動源を考慮することは、アルゴリズムAとBの改善を検出する信頼性にどのような影響を与えるか？
RQ4限られた計算資源の下で、ベンチマークの結論の精度と公平性を向上させる実践的な推奨事項は何か？

主な発見

データサンプリング分散、ハイパーパラメータ最適化、拡張の選択がベンチマークの結果に大きく影響する。
データのブートストラップは分散の支配的な源として明らかであり、初期化とSGDの訪問順序は小さくても無視できない寄与をする。
ハイパーパラメータ最適化の分散は実質的に大きく、研究対象のケースでは初期化分散と并べて評価できる程度である。
より多くの変動源を取り入れると性能推定の標準誤差が減少し、小さな改善の検出感度が向上する。
公表された改善の分散は典型的な利得と同程度の大きさであり、ベンチマーク時に分散を考慮する必要性を強調している。
追加の変動源を考慮した場合、計算コストの51倍削減が報告されており、理想的な推定量に近づく。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。