[論文レビュー] Stochastic Variational Deep Kernel Learning
SV-DKLを導入します。これは、分類、マルチタスク学習、および大規模データに対して、深層ネットワークと加法的ガウス過程、確率的変分推論を組み合わせたスケーラブルな深層カーネル学習フレームワークです。
Deep kernel learning combines the non-parametric flexibility of kernel methods with the inductive biases of deep learning architectures. We propose a novel deep kernel learning model and stochastic variational inference procedure which generalizes deep kernel learning approaches to enable classification, multi-task learning, additive covariance structures, and stochastic gradient training. Specifically, we apply additive base kernels to subsets of output features from deep neural architectures, and jointly learn the parameters of the base kernels and deep network through a Gaussian process marginal likelihood objective. Within this framework, we derive an efficient form of stochastic variational inference which leverages local kernel interpolation, inducing points, and structure exploiting algebra. We show improved performance over stand alone deep networks, SVMs, and state of the art scalable Gaussian processes on several classification benchmarks, including an airline delay dataset containing 6 million training points, CIFAR, and ImageNet.
研究の動機と目的
- 大規模な分類問題のために深層表現を活用する表現力が高くスケーラブルなカーネルの必要性を動機づける。
- 深層ネットワーク特徴量に適用される基底カーネルの加法による深層カーネル学習モデルを提案する。
- 局所カ kernel補間と導出点を活用してスケーラビリティを実現する確率的変分推論手順を開発する。
- 周辺尤度目的関数を通じて、深層ネットワークのパラメータ・基底カーネルのハイパーパラメータ・混合行列を結合して学習する。
提案手法
- 入力を深層ニューラルネットワークを通じてマップし、最終層の特徴を生成する。
- この特徴のサブセットに対して、基底カーネルを用いたJ個のガウス過程を加法カーネル層として適用する。
- GP出力を線形混合して、混合矩陣Aを介して相関のあるマルチタスク出力を生成する。
- 確率的変分推論目的関数を用いてGPの周辺尤度を最大化することで、全パラメータを最適化する。
- 局所的なカーネル補間と誘導点、および Kronecker 構造のサンプラーを用いてスケーラブルな推論を実現する。
- 構造を利用した代数で、誘導変数の変分後方分布の高速サンプリング方式を提供する。
実験結果
リサーチクエスチョン
- RQ1加法的GPを用いた深層カーネル学習モデルは、大規模データセットで分類性能を改善できるか。
- RQ2精度を損なうことなく、確率的変分推論をどのように設計して深層カーネル法を数百万点へとスケールさせるか。
- RQ3深層ネット・基底カーネル・出力混合の結合学習は、マルチタスク間の相関を効果的に捉えるか?
- RQ4SV-DKLは、独立したDNNと最先端のスケーラブルGP法とを、さまざまなタスク(航空機遅延、UCI、画像データ)でどう比較するか?
主な発見
- SV-DKLは、いくつかの分類ベンチマークで独立したディープネットワークおよびスケーラブルGPベースラインを上回る。
- このアプローチは大規模データセットにスケールする(例:航空機遅延データ約590万点)し、誘導点数mと入力次元Dを用いたO(m1+1/D)の複雑さを使用する。
- 深部特徴、基底カーネル、および混合行列の結合学習は、非エンドツーエンドや単一成分モデルより予測性能を向上させる。
- 実証的結果は、SV-DKLがKLSP-GPおよび他のスケーラブルGP法と競争力のある、または優れた精度を提供し、画像タスクではしばしばCNNベースのアプローチを上回ることを示す。
- このモデルは、混合行列Aを通じて解釈可能な深部共分散構造とマルチ出力相関を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。