Skip to main content
QUICK REVIEW

[論文レビュー] Exploring Large Feature Spaces with Hierarchical Multiple Kernel Learning

Francis Bach|ArXiv.org|Sep 9, 2008
Domain Adaptation and Few-Shot Learning参考文献 21被引用数 175
ひとこと要約

本稿では、基礎カーネルを有向非巡回グラフ(DAG)で構造化することで、大規模な構造的特徴空間におけるスパース性誘導正則化を効率的に行う階層的マルチカーネル学習フレームワークを提案する。多項式時間での計算が可能であり、合成データおよびUCIデータセットにおいて、非線形変数選択において最先端の予測性能を達成する。

ABSTRACT

For supervised and unsupervised learning, positive definite kernels allow to use large and potentially infinite dimensional feature spaces with a computational cost that only depends on the number of observations. This is usually done through the penalization of predictor functions by Euclidean or Hilbertian norms. In this paper, we explore penalizing by sparsity-inducing norms such as the l1-norm or the block l1-norm. We assume that the kernel decomposes into a large sum of individual basis kernels which can be embedded in a directed acyclic graph; we show that it is then possible to perform kernel selection through a hierarchical multiple kernel learning framework, in polynomial time in the number of selected kernels. This framework is naturally applied to non linear variable selection; our extensive simulations on synthetic datasets and datasets from the UCI repository show that efficiently exploring the large feature space through sparsity-inducing norms leads to state-of-the-art predictive performance.

研究の動機と目的

  • 入力次元に対して指数関数的に増加する基礎カーネル数を有する、大規模かつ無限次元の特徴空間において、効率的なカーネル選択を実現する課題に取り組む。
  • 有向非巡回グラフ(DAG)を用いた階層的構造を活用することで、このような大規模空間における直接的なマルチカーネル学習の計算不能性を克服する。
  • DAG構造のカーネル分解におけるブロックℓ¹ノルムを用いたスパース性誘導正則化フレームワークを導入し、関連する特徴部分空間の自動選択を可能にする。
  • 提案フレームワーク下でのモデル選択の理論的一貫性条件を確立し、関連変数の凸包を一貫して推定できることを示す。
  • 実験的に、標準的なℓ²正則化およびベースラインのマルチカーネル学習と比較して、合成データおよび実世界のデータセットにおいて優れた予測性能を達成することを示す。

提案手法

  • 正定値カーネルを、有向非巡回グラフ(DAG)のノードにそれぞれ関連付けられた基礎カーネルの和に分解することで、特徴空間に階層的構造を導入する。
  • DAGにおける親子関係によって定義されるグループに応じて、基礎カーネルのグループに対してブロックℓ¹ノルム正則化を適用し、グループレベルでのスパarsityを誘導する。
  • DAG構造を活用した最適化アルゴリズムを設計し、選択されたカーネル数に相対して多項式時間でカーネル選択を実行する。これにより指数的複雑性を回避する。
  • レプresenter定理を用いて予測関数をカーネル展開の形で表現し、構造的スパarsityを持つ双対空間での最適化を可能にする。
  • 階層的スパarsityパターンを強制する制約を備えた凸計画問題として最適化問題を定式化し、親カーネルが選択されていない限り、子カーネルは選択されないようにする。
  • グループ構造正則化の双対ノルムを活用し、一貫性条件を導出する。DAG構造を用いて双対ノルムをバウンディングし、モデル選択の信頼性を評価する。

実験結果

リサーチクエスチョン

  • RQ1カーネル分解によって定義される大規模で構造的な特徴空間において、ℓ¹またはブロックℓ¹などのスパース性誘導正則化を効果的に適用できるか?
  • RQ2基礎カーネル数が入力次元に対して指数関数的に増加する場合でも、DAG構造が利用可能であれば、カーネル選択を多項式時間で行うことは可能か?
  • RQ3提案された階層的マルチカーネル学習フレームワークは、標準的なℓ²正則化および非階層的マルチカーネル学習と比較して、より優れた予測性能を示すか?
  • RQ4関連する特徴部分空間の選択に関して、モデルの一貫性に必要なおよび十分な条件は何か?
  • RQ5本フレームワークは、複雑な特徴相互作用を有する高次元設定において、非線形変数選択に効果的に用いることができるか?

主な発見

  • 提案された階層的マルチカーネル学習フレームワークは、基礎カーネル総数が指数関数的に増加する場合でも、選択されたカーネル数に相対して多項式時間で効率的なカーネル選択を可能にする。
  • 本手法は、合成データおよび標準的なUCIベンチマークデータセットにおいて、ℓ²正則化カーネル手法および標準的なマルチカーネル学習と比較して、常に最先端の予測性能を達成する。
  • 理論的分析により、フレームワークが関連変数の凸包を一貫して推定できることを示し、適切な条件下で信号を説明する最小の特徴グループを信頼性高く同定できることを示す。
  • 残差ベクトルの双対ノルムが1未満である場合、モデルの一貫性が保証される。DAG構造を用いてこの双対ノルムの明示的な下限および上限が導出される。
  • 本フレームワークは、基礎カーネルを有向グリッド(DAGの一種)として構造化することにより、非線形変数選択を自然にサポートする。これにより、複雑な階層的特徴相互作用の選択が可能になる。
  • 実験的結果により、本手法がℓ²正則化と常に同等以上に競争力を持ち、特にスパースな真の信号構造を持つ高次元設定では、性能が顕著に向上することが確認される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。