QUICK REVIEW

[論文レビュー] Efficient non-greedy optimization of decision trees

Mohammad Norouzi, Maxwell D. Collins|arXiv (Cornell University)|Nov 12, 2015

Machine Learning and Data Classification参考文献 25被引用数 69

ひとこと要約

本稿では、経験的損失の凸-凹上界を用いた確率的勾配降下法により、非グリーディでグローバルに最適化された意思決定木の学習手法を提案する。この手法により、分割関数とリーフパラメータの共同最適化が可能となり、グリーディベースラインと比較して一般化性能が向上し、過学習が低減される。また、木の構造を活用した高速推論バージョンにより、計算複雑性を O(2^d p) から O(d²p) に削減することで、スケーラブルな学習が実現される。

ABSTRACT

Decision trees and randomized forests are widely used in computer vision and machine learning. Standard algorithms for decision tree induction optimize the split functions one node at a time according to some splitting criteria. This greedy procedure often leads to suboptimal trees. In this paper, we present an algorithm for optimizing the split functions at all levels of the tree jointly with the leaf parameters, based on a global objective. We show that the problem of finding optimal linear-combination (oblique) splits for decision trees is related to structured prediction with latent variables, and we formulate a convex-concave upper bound on the tree's empirical loss. The run-time of computing the gradient of the proposed surrogate objective with respect to each training exemplar is quadratic in the the tree depth, and thus training deep trees is feasible. The use of stochastic gradient descent for optimization enables effective training with large datasets. Experiments on several classification benchmarks demonstrate that the resulting non-greedy decision trees outperform greedy decision tree baselines.

研究の動機と目的

グリーディ意思決定木の導出における局所最適化の問題を解決する。これは、グローバル構造を考慮せずに1ノードずつ分割を最適化するためである。
最適な木の学習がNP困難であることを踏まえ、計算可能な代替目的関数を用いたグローバル最適化問題として定式化する。
深さに関する計算複雑性を指数的から二次的へと削減することで、深層木の効率的学習を可能にする。
正則化されたグローバル目的関数の下で、分割関数とリーフパラメータを同時に最適化することで、一般化性能の向上と過学習の低減を実現する。
スパarsity やカーネル法などの拡張を可能にする、非グリーディ意思決定木学習の整合的フレームワークを提供する。

提案手法

各内部ノードに二値の潜在変数を導入し、そのパスの選択を示すように、意思決定木学習を潜在変数を含む構造予測問題として定式化する。
経験的損失の凸-凹上界を構築し、最適化のための微分可能で代替可能な目的関数として用いる。
確率的勾配降下法（SGD）を用い、この代替目的関数の下で分割重み W とリーフパラメータ Θ を同時に最適化する。
木の構造を活用した損失補正推論の高速版を導入し、勾配計算の複雑性を O(2^d p) から O(d²p) に削減する。
非グリーディ手法の初期化として、軸に沿ったグリーディ木（CO2ベースライン）を用い、W と Θ の初期値を提供する。
パラメータ ν を用いたノルム正則化を導入し、マージンの大きさを制御すると同時に、リーフの自動 pruning を実現し、一般化性能の向上を図る。

実験結果

リサーチクエスチョン

RQ1すべての木のレベルで分割関数を同時に最適化することで、1ノードずつ最適化するグリーディ手法と比較して、一般化性能が向上するか？
RQ2深層木の効率的学習が、スケーラブルな勾配計算を備えた非グリーディ最適化によって可能になるか？
RQ3正則化パラメータ ν が木の構造と一般化性能に与える影響は何か？
RQ4さまざまな木の深さにおいて、非グリーディ学習がグリーディベースラインと比較して過学習をどの程度低減するか？
RQ5非グリーディでグローバル最適化の枠組みにおいて、CO2 よりも優れた既存の非グリーディ手法を上回れるか？

主な発見

複数のベンチマークで、あらゆる木の深さにおいて非グリーディ意思決定木が最高のテスト精度を達成し、グリーディおよび CO2 ベースラインを上回った。
過学習が低減されており、深さが増してもテスト精度がグリーディ木を常に上回った。
正則化パラメータ ν は、暗黙的に pruning を制御する：ν の値が小さいほど、有効なリーフ数が減少する（図3参照）。
高速推論バージョンによりスケーラブルな学習が実現され、訓練時間は深さに比例して線形に増加する一方で、指数関数的増加を示さない（図4で確認）。
MNIST や Connect4 などの分類タスクを含め、複数のデータセットで一貫した性能向上が得られ、一般化性能に優れた。
ν と学習率 η のハイパーパramータチューニングにより最適なモデルが得られ、最終的なテストセット評価ではグリーディおよび CO2 ベースラインを上回る精度が達成された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。