Skip to main content
QUICK REVIEW

[論文レビュー] Multi-Layered Gradient Boosting Decision Trees

Ji Feng, Yu Yang|arXiv (Cornell University)|May 31, 2018
Neural Networks and Applications被引用数 63
ひとこと要約

本論文は、回帰GBDTを積み重ねて階層的表現を学習し、バックプロパゲーションなしでターゲット伝播風の手法で訓練する多層GBDT森林(mGBDTs)を提案する。表形式データにおける表現学習と競合的な性能を示す。

ABSTRACT

Multi-layered representation is believed to be the key ingredient of deep neural networks especially in cognitive tasks like computer vision. While non-differentiable models such as gradient boosting decision trees (GBDTs) are the dominant methods for modeling discrete or tabular data, they are hard to incorporate with such representation learning ability. In this work, we propose the multi-layered GBDT forest (mGBDTs), with an explicit emphasis on exploring the ability to learn hierarchical representations by stacking several layers of regression GBDTs as its building block. The model can be jointly trained by a variant of target propagation across layers, without the need to derive back-propagation nor differentiability. Experiments and visualizations confirmed the effectiveness of the model in terms of performance and representation learning ability.

研究の動機と目的

  • 表形式データのための非微分可能なモデル(GBDT)における深い表現の必要性を動機づける。
  • 階層的表現を学習する多層GBDTアーキテクチャを提案する。
  • バックプロパゲーションなしで、疑似ラベルを用いて全層を共同最適化する訓練手法を開発する。
  • 表現学習と実世界データセットにおける競争力のある性能を示す。
  • 非微分可能な深層モデルの潜在的拡張と応用を探る。

提案手法

  • M-1 の中間層と最終出力層を持つ多層前向き構造を構築する。
  • 前方写像F_iを非微分可能なGBDTベースの層として定義し、逆写像G_iを導入して疑似逆対を形成する。
  • ターゲット伝播の一種を用いる:各層の疑似ラベルを、トップ層のターゲットを逆写像を介して下方へ伝播させて算出する。
  • 疑似ラベルから導かれた疑似残差に向かって勾配ブースティングのステップで各F_iを更新し、前方出力を前の層の表現へ戻すようにG_iを訓練する。
  • 逆経路にガウスノイズを注入して学習を正則化・安定化する;小さな木と小さなガウス出力で初期化して開始する。
  • F_iが上位層より前に更新されるボトムアップの更新スケジュールを提供し、Eエポック反復する。

実験結果

リサーチクエスチョン

  • RQ1非微分可能な成分(GBDT)で構成された多層モデルをバックプロパゲーションなしでエンドツーエンド訓練できるか?
  • RQ2スタックされたGBDT層は深層ニューラルネットワークに類似した階層的・分布表現を学習するか?
  • RQ3mGBDTは神経網および単一GBDTと比較して、教師あり・教師なし設定でどのように性能を示すか?
  • RQ4深さを増すことで表現品質と表形式データの分類/回帰性能は改善するか?

主な発見

モデルIncomeデータセットProteinデータセット
XGBoost.8719.5937 ± .0324
XGBoost Stacking.8697.5592 ± .0400
NN^{TargetProp}0.8491.5756 ± .0465
NN^{BackProp}0.8534.5907 ± .0268
Multi-layered GBDT0.8742.5948 ± .0268
  • mGBDTは報告された実験で比較法の中でIncomeデータセットとProteinデータセットの精度が最高を達成した。
  • Incomeデータセットでは、mGBDTは0.8742の精度を達成し、XGBoostは0.8719、XGBoost Stackingは0.8697、NN(TargetProp)は0.8491、NN(BackProp)は0.8534、Proteinデータセットでも同様の傾向。
  • 教師なしのmGBDTオートエンコーダは分布表現を生成でき、可視化は上位層で意義あるエンコーディングを示している。
  • より深いmGBDTスタックは可視化で段階的により良い表現を生み出し、実データタスクの性能を向上させる。
  • バックプロパゲーションまたはターゲット伝播で訓練されたニューラルネットワークと比較して、mGBDTは収束が速く、テストデータセットで競争力のあるまたは優れた精度を達成できる。
  • 層の深さの変化はmGBDTアプローチの頑健性を示しており、ターゲット伝播ベースのニューラルネットは深さが増すにつれて頑健性が低下することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。