QUICK REVIEW

[論文レビュー] Optimization of Tree Ensembles

Velibor V. Mišić|arXiv (Cornell University)|May 30, 2017

Advanced Multi-Objective Optimization Algorithms被引用数 5

ひとこと要約

本稿では、ランダムフォレストやブーストドツリーからの予測を最大化するために、制御可能な入力変数を設定する木アンサンブル最適化問題を解くための混合整数最適化（MIO）フレームワークを提案する。この手法は、タイトなMIO定式化、ベンダース分解、反復的スプリット制約生成を用い、近似的に最適な解を効率的に得る。医薬品設計および価格設定の事例において、近似最適性ギャップが1%未塔のヘューリスティクスを上回る性能を示した。

ABSTRACT

Tree ensemble models such as random forests and boosted trees are among the most widely used and practically successful predictive models in applied machine learning and business analytics. Although such models have been used to make predictions based on exogenous, uncontrollable independent variables, they are increasingly being used to make predictions where the independent variables are controllable and are also decision variables. In this paper, we study the problem of tree ensemble optimization: given a tree ensemble that predicts some dependent variable using controllable independent variables, how should we set these variables so as to maximize the predicted value? We formulate the problem as a mixed-integer optimization problem. We theoretically examine the strength of our formulation, provide a hierarchy of approximate formulations with bounds on approximation quality and exploit the structure of the problem to develop two large-scale solution methods, one based on Benders decomposition and one based on iteratively generating tree split constraints. We test our methodology on real data sets, including two case studies in drug design and customized pricing, and show that our methodology can efficiently solve large-scale instances to near or full optimality, and outperforms solutions obtained by heuristic approaches. In our drug design case, we show how our approach can identify compounds that efficiently trade-off predicted performance and novelty with respect to existing, known compounds. In our customized pricing case, we show how our approach can efficiently determine optimal store-level prices under a random forest model that delivers excellent predictive accuracy.

研究の動機と目的

入力変数が外生的予測子ではなく、制御可能な意思決定変数である場合に、木アンサンブルモデルを最適化する課題に対処すること。
最適化に適した形で、木の予測の区分的定数性を正確に捉える厳密な数学的定式化を開発すること。
大規模な木アンサンブルを扱えるスケーラブルな解法（ベンダース分解および反復的スプリット制約生成）を設計すること。
実世界のデータ（医薬品設計およびカスタマイズ価格設定を含む）を用いた実証的検証を通じて、代替ヘューリスティクスに比べ優れた性能を示すこと。
MIO定式化の深さに基づく切り捨てを用いた理論的近似品質の境界を確立すること。

提案手法

各木の意思決定パスをバイナリ変数と論理制約でモデル化することで、木アンサンブル最適化を混合整数最適化（MIO）問題として定式化する。
入力変数から木のリーフへのマッピングをタイトにモデル化する強力なMIO定式化を導入し、高い解の品質を確保する。
深さに基づく切り捨てを用いた近似定式化の階層を提案し、近似誤差に対する理論的境界を示す。
問題を分解して大規模なインスタンスを効率的に解ける、ベンダース分解に基づくアルゴリズムを開発する。
木のスプリットに基づいて動的に制約を追加する反復的スプリット制約生成法を設計し、収束を改善する。
解が訓練データポイントから十分に離れていることを保証する近接制約を採用し、実用的な新規性を高める。

実験結果

リサーチクエスチョン

RQ1混合整数最適化定式化は、意思決定最適化に適した、木アンサンブルの区分的定数関数を効果的にモデル化できるか？
RQ2提案されたMIO定式化は、代替定式化と比較して、強度と解の品質の面で優れているか？
RQ3木の深さに基づく近似階層は、計算複雑性を低下させつつ、最適性ギャップをどの程度制御できるか？
RQ4分解および制約生成手法は、実世界の応用における大規模な木アンサンブルにスケーラブルか？
RQ5実際の応用において、MIOベースの最適化はヘューリスティクスと比較して、目的関数値および解の多様性の面で優れているか？

主な発見

提案されたMIO定式化は、常に近似的に最適な解を達成し、テストされたインスタンス全体で最大0.12%の最適性ギャップを示した。
医薬品設計の事例において、MIOアプローチは訓練データからの最大近接度0.01を達成し、最良の可能な目的関数値の93%を達成した。
カスタマイズ価格設定の事例では、MIO最適化価格が階層ベイズモデルよりも顕著に高い出-sample R²（予測精度の向上を示す）を達成した。
MIOの解はヘューリスティクスに基づく価格よりも極端でなく、店舗チェーン全体で最高または最低の許容価格に設定された製品が少なかった。
ベンダース分解およびスプリット制約生成法により、大規模インスタンスを秒～分単位で効率的に解くことが可能になった。
MIOアプローチは、目的関数値および訓練データからの近接度の両面でヘューリスティクスの解を上回り、ヘューリスティクスの解は最適解の90～94%の目的関数値にとどまった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。