QUICK REVIEW

[論文レビュー] A Swiss Army Infinitesimal Jackknife

Ryan Giordano, William Stephenson|arXiv (Cornell University)|Jun 1, 2018

Bayesian Modeling and Causal Inference被引用数 29

ひとこと要約

本稿では、データ重みへのモデル適合感度の線形近似である無限小ブートストラップ（infinitesimal jackknife）を用いて、交差検証およびブートストラップの高速かつ有限標本で正確な近似を提案する。自動微分を活用し、弱い正則性条件のもとで明示的な誤差バウンディングを提供することで、繰り返し最適化を伴う従来手法に比べて最大10倍の高速化を達成するとともに、任意の固定された $k$ に対するleave-$k$-out交差検証を一貫して推定可能となり、現代の機械学習におけるスケーラブルな不確実性評価を可能にする。

ABSTRACT

The error or variability of machine learning algorithms is often assessed by repeatedly re-fitting a model with different weighted versions of the observed data. The ubiquitous tools of cross-validation (CV) and the bootstrap are examples of this technique. These methods are powerful in large part due to their model agnosticism but can be slow to run on modern, large data sets due to the need to repeatedly re-fit the model. In this work, we use a linear approximation to the dependence of the fitting procedure on the weights, producing results that can be faster than repeated re-fitting by an order of magnitude. This linear approximation is sometimes known as the "infinitesimal jackknife" in the statistics literature, where it is mostly used as a theoretical tool to prove asymptotic results. We provide explicit finite-sample error bounds for the infinitesimal jackknife in terms of a small number of simple, verifiable assumptions. Our results apply whether the weights and data are stochastic or deterministic, and so can be used as a tool for proving the accuracy of the infinitesimal jackknife on a wide variety of problems. As a corollary, we state mild regularity conditions under which our approximation consistently estimates true leave-$k$-out cross-validation for any fixed $k$. These theoretical results, together with modern automatic differentiation software, support the application of the infinitesimal jackknife to a wide variety of practical problems in machine learning, providing a "Swiss Army infinitesimal jackknife". We demonstrate the accuracy of our methods on a range of simulated and real datasets.

研究の動機と目的

大規模な機械学習における交差検証およびブートストラップの繰り返しモデル再適合による計算ボトルネックを解消すること。
繰り返し最適化を避ける線形近似を用いて、古典的リサンプリング手法の実用的で高速な代替手法を開発すること。
検証可能で弱い正則性条件のもとで、無限小ブートストラップの有限標本理論的保証を提供すること。
単一の摂動的計算で任意の固定された $k$ に対するleave-$k$-out交差検証を一貫して推定可能にする仕組みを構築すること。
現代の自動微分ツールと統合することで、多様な機械学習モデルに広く適用可能な汎用性を実現すること。

提案手法

データ重みへのモデルの依存性の線形近似、すなわち無限小ブートストラップ（IJ）を用いて、繰り返し再適合を伴わずにばらつきを推定する。
推定量の経験分布まわりの1次テイラー展開としてIJを形式化し、勾配とヘッセ行列の近似を用いる。
導出された有限標本誤差バウンディングは、導関数プロセスの複雑さを分析することで得られ、集中不等式と行列ノルムの制御に依存する。
Keenerの定理9.2と和集合の不等式を適用し、勾配の有界性、ヘッセ行列の正則性、勾配プロセスのリプシッツ連続性といった重要な仮定が $N \to \infty$ で高確率で成立することを示す。
勾配およびヘッセ行列・ベクトル積を効率的に計算するために自動微分を活用し、エンドツーエンドの微分可能性とスケーラビリティを実現する。
シミュレートデータおよび実世界のデータ（遺伝学的データを含む）を用いた実験的評価により、正確性と高速性が、正確な交差検証と比較して確認された。

実験結果

リサーチクエスチョン

RQ1勾配が有界でない現代の機械学習問題において、無限小ブートストラップを有限標本で厳密に正当化できるか？
RQ2無限小ブートストラップが任意の固定された $k$ に対してleave-$k$-out交差検証を一貫して推定できる条件は何か？
RQ3モデルおよびデータに関する単純で検証可能な仮定の下で、無限小ブートストラップの誤差をどのようにバウンディングできるか？
RQ4交差検証やブートストラップといった古典的リサンプリング手法と比較して、無限小ブートストラップの計算的トレードオフはどのようなものか？
RQ5現代の自動微分フレームワークを用いて、無限小ブートストラップを実用的に効率的に実装できるか？

主な発見

無限小ブートストラップは、交差検証やブートストラップといった繰り返し再適合を伴う手法に比べ、最大10倍の高速化を達成した。
勾配ノルムの有界性、ヘッセ行列の正則性、勾配プロセスのリプシッツ連続性といった弱い正則性条件のもとで、有限標本誤差バウンディングが確立された。
任意の固定された $k$ に対して、leave-$k$-out交差検証を一貫して推定可能であり、$N \to \infty$ で確率的収束が成立する。
ヘッセ行列の正則性や勾配の有界性といった重要な仮定が成立する確率は、標本サイズが増加するにつれて1に収束する。
シミュレーションおよび実際の遺伝学的データセットを用いた実験的評価により、正確性と計算効率が正確な交差検証と比較して確認された。
自動微分との統合により、微分可能な機械学習モデルの広範な分野へのシームレスな適用が可能となり、広範な実用的価値を実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。