Skip to main content
QUICK REVIEW

[논문 리뷰] Optimization of Tree Ensembles

Velibor V. Mišić|arXiv (Cornell University)|2017. 05. 30.
Advanced Multi-Objective Optimization Algorithms인용 수 5
한 줄 요약

이 논문은 랜덤 포레스트나 부스팅 트리의 예측값을 최대화하기 위해 제어 가능한 입력 변수를 설정하는 트리 앙상블 최적화 문제를 해결하기 위해 혼합정수최적화(MIO) 프레임워크를 제안한다. 이 방법은 날카운 MIO 설정, 벤더스 분해, 반복적인 분할 제약 조건 생성을 통해 근사 최적해를 효율적으로 찾으며, 약 1% 미만의 최적성 갭을 보이며 약물 설계 및 가격 설정 사례 연구에서 휘도 기반 방법을 능가한다.

ABSTRACT

Tree ensemble models such as random forests and boosted trees are among the most widely used and practically successful predictive models in applied machine learning and business analytics. Although such models have been used to make predictions based on exogenous, uncontrollable independent variables, they are increasingly being used to make predictions where the independent variables are controllable and are also decision variables. In this paper, we study the problem of tree ensemble optimization: given a tree ensemble that predicts some dependent variable using controllable independent variables, how should we set these variables so as to maximize the predicted value? We formulate the problem as a mixed-integer optimization problem. We theoretically examine the strength of our formulation, provide a hierarchy of approximate formulations with bounds on approximation quality and exploit the structure of the problem to develop two large-scale solution methods, one based on Benders decomposition and one based on iteratively generating tree split constraints. We test our methodology on real data sets, including two case studies in drug design and customized pricing, and show that our methodology can efficiently solve large-scale instances to near or full optimality, and outperforms solutions obtained by heuristic approaches. In our drug design case, we show how our approach can identify compounds that efficiently trade-off predicted performance and novelty with respect to existing, known compounds. In our customized pricing case, we show how our approach can efficiently determine optimal store-level prices under a random forest model that delivers excellent predictive accuracy.

연구 동기 및 목표

  • 제어 가능한 입력 변수가 외생 예측 변수가 아니라 의사결정 변수로 작용할 때 트리 앙상블 모델을 최적화하는 데 도전하는 문제를 해결하기 위해.
  • 조각별로 일정한 트리 예측의 특성을 최적화에 적합한 방식으로 정확히 수학적으로 기술하는 엄밀한 수식을 개발하기 위해.
  • 대규모 트리 앙상블을 처리할 수 있는 확장 가능한 해법 방법—벤더스 분해 및 반복적 분할 제약 조건 생성—을 설계하기 위해.
  • 실제 데이터, 특히 약물 설계 및 맞춤형 가격 설정에 대한 실증적 검증을 통해 휘도 기반 대안보다 뛰어난 성능을 보여주기 위해.
  • MIO 설정의 깊이 기반 절단을 통한 근사 품질 이론적 한계를 설정하기 위해.

제안 방법

  • 각 트리의 결정 경로를 이진 변수와 논리 제약 조건으로 모델링하여 트리 앙상블 최적화 문제를 혼합정수최적화(MIO) 문제로 수식화한다.
  • 입력 변수에서 트리의 잎으로의 매핑을 정밀하게 모델링하는 강력한 MIO 설정을 도입하여 높은 해 품질을 확보한다.
  • 깊이 기반 절단을 사용한 근사 설정의 계층을 제안하며, 근사 오차에 대한 증명 가능한 경계를 제공한다.
  • 문제를 분해하고 대규모 인스턴스를 효율적으로 해결하기 위해 벤더스 분해 기반 알고리즘을 개발한다.
  • 트리 분할에 기반해 동적으로 제약 조건을 추가하는 반복적 분할 제약 조건 생성 방법을 설계하여 수렴성을 향상시킨다.
  • 해가 훈련 데이터 포인트와 충분히 다를 수 있도록 보장하기 위해 근접성 제약 조건을 적용하여 실용적 신선도를 높인다.

실험 결과

연구 질문

  • RQ1혼합정수최적화 설정이 의사결정 최적화를 위해 트리 앙상블의 조각별 일정한 예측 함수를 효과적으로 모델링할 수 있는가?
  • RQ2제안된 MIO 설정은 다른 설정 대비 강도와 해 품질 측면에서 어떻게 비교되는가?
  • RQ3트리 깊이 기반 근사 계층이 최적성 갭을 제한하면서 계산 복잡도를 줄이는 데 얼마나 효과적인가?
  • RQ4분해 및 제약 조건 생성 방법이 실세계 응용에서 대규모 트리 앙상블에 확장 가능한가?
  • RQ5실제로 휘도 기반 방법에 비해 MIO 기반 최적화는 목표 함수 값과 해의 다양성 측면에서 어떻게 비교되는가?

주요 결과

  • 제안된 MIO 설정은 근사 최적해를 일관되게 달성하며, 테스트된 인스턴스 전반에서 최대 0.12%의 최적성 갭을 보였다.
  • 약물 설계 사례 연구에서 MIO 방법은 훈련 데이터와의 최대 거리가 0.01인 분자를 찾았으며, 최상의 목표 함수 값의 93%를 달성했다.
  • 맞춤형 가격 설정 사례 연구에서 MIO 최적화 가격은 계층적 베이지안 모델보다 더 높은 표본 외 R²(예측 정확도 향상)를 달성했다.
  • MIO 해는 휘도 기반 가격보다 극단적이지 않았으며, 매장 체인 전반에서 최고 또는 최저 허용 가격으로 설정된 제품 수가 적었다.
  • 벤더스 분해 및 분할 제약 조건 생성 방법은 대규모 인스턴스의 효율적 해를 가능하게 하여 몇 초에서 몇 분 내로 문제를 해결했다.
  • MIO 방법은 목표 함수 값과 훈련 데이터로부터의 근접성 측면에서 모두 휘도 기반 해를 압도했으며, 휘도 기반 해는 최적 목표 함수의 90~94%에 그쳤다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.