QUICK REVIEW

[논문 리뷰] DART: Dropouts meet Multiple Additive Regression Trees

K. V. Rashmi, Ran Gilad-Bachrach|arXiv (Cornell University)|2015. 05. 07.

Explainable Artificial Intelligence (XAI)참고 문헌 11인용 수 137

한 줄 요약

이 논문은 다수의 추가 회귀 트리(MART)를 위한 새로운 정규화 기법인 DART를 제안한다. DART는 훈련 중에 무작위로 전체 트리를 제거함으로써 과도한 전문화(over-specialization)를 완화한다. 과도한 전문화란 후행 트리가 몇몇 훈련 인스턴스에만 기여하는 현상을 뜻한다. DART는 순위 매기기, 회귀, 분류 작업 전반에서 MART와 랜덤 포레스트보다 유의미하게 높은 성능을 달성한다. 이는 트리 기여도가 더 균형 잡히고 일반화 성능이 향상되기 때문이다.

ABSTRACT

Multiple Additive Regression Trees (MART), an ensemble model of boosted regression trees, is known to deliver high prediction accuracy for diverse tasks, and it is widely used in practice. However, it suffers an issue which we call over-specialization, wherein trees added at later iterations tend to impact the prediction of only a few instances, and make negligible contribution towards the remaining instances. This negatively affects the performance of the model on unseen data, and also makes the model over-sensitive to the contributions of the few, initially added tress. We show that the commonly used tool to address this issue, that of shrinkage, alleviates the problem only to a certain extent and the fundamental issue of over-specialization still remains. In this work, we explore a different approach to address the problem that of employing dropouts, a tool that has been recently proposed in the context of learning deep neural networks. We propose a novel way of employing dropouts in MART, resulting in the DART algorithm. We evaluate DART on ranking, regression and classification tasks, using large scale, publicly available datasets, and show that DART outperforms MART in each of the tasks, with a significant margin. We also show that DART overcomes the issue of over-specialization to a considerable extent.

연구 동기 및 목표

후행 트리가 몇몇 훈련 인스턴스에만 기여하는 과도한 전문화 문제를 해결함으로써 모델의 강건성과 일반화 능력을 향상시키기.
모델 앙상블 크기가 증가함에 따라 과도한 전문화를 완전히 해결하지 못하는 MART에서 표준 정규화 방법인 슈리크니스(shrinkage)의 한계를 극복하기.
딥 네ural 네트워크에서의 드롭아웃을 영감으로 삼은 새로운 형태의 정규화를 제안하지만, 특성나 뉴런이 아닌 전체 트리 수준에서 적용한다.
훈련 중에 전체 트리를 제거하는 것이 앙상블 내 모든 트리의 기여도를 더 균형 있게 만들며, 이는 모델의 안정성과 예측 성능 향상에 기여함을 보여주기.
대규모 실세계 데이터셋을 대상으로 DART를 평가하여, 다양한 기계학습 작업에서 MART와 랜덤 포레스트보다 뛰어난 성능을 보임을 검증하기.

제안 방법

DART(Dropouts meet Additive Regression Trees)를 제안하며, 이는 각 부스팅 반복 과정에서 트리의 일부를 무작위로 제거하는 드롭아웃을 적용하는 MART의 변종이다.
훈련 중에 무작위로 선택된 트리 부분집합이 앙상블 예측에 기여하지 않도록 하여, 남은 트리들이 더 많은 인스턴스를 포괄하도록 강제한다.
훈련 후에는 모든 트리가 최종 모델에 유지되지만, 드롭아웃 비율을 고려해 기여도를 정규화함으로써 일관된 스케일링을 보장한다.
각 반복에서 제거되는 트리의 비율을 제어하기 위해 드롭아웃 비율 ε를 사용하며, 검증을 통해 최적의 ε를 튜닝하여 정규화와 모델 용량의 균형을 이룬다.
기존의 MART 구성 요소인 슈리크니스와 인스턴스 및 특성의 서브샘플링과 함께 드롭아웃을 통합하여, 다양한 초모수 튜닝이 가능하도록 한다.
반복적으로 앙상블을 훈련하며, 각 신규 트리는 현재 앙상블의 잔차 오차를 최소화하도록 피팅되지만, 해당 반복에서 제거되지 않은 경우에만 기여한다.

실험 결과

연구 질문

RQ1MART에서 전체 트리 수준의 드롭아웃을 적용함으로써 과도한 전문화가 감소하고, 테스트 데이터에 대한 일반화 능력이 향상되는가?
RQ2MART에서 드롭아웃 정규화가 다양한 기계학습 작업에서 전통적인 슈리크니스와 랜덤 포레스트 기준선을 초월할 수 있는가?
RQ3DART를 사용할 경우 앙상블 내 트리 기여도의 균형은 표준 MART와 비교해 어떻게 변화하는가?
RQ4순위 매기기, 회귀, 분류 작업 전반에서 DART의 최적의 드롭아웃 비율과 앙상블 크기는 무엇인가?
RQ5DART는 초기 트리에 대한 민감도를 줄이며 높은 성능을 유지할 수 있는가? 이를 통해 모델의 강건성이 향상되는가?

주요 결과

DART는 순위 매기기, 회귀, 분류 작업 전반에서 MART와 랜덤 포레스트를 뛰어넘는 성능을 보이며, 더 높은 정확도와 낮은 손실을 달성한다.
Yahoo! 러닝 투 랭킹 데이터셋에서 DART는 NDCG(정규화된 할인 수익) 0.892를 기록했으며, MART의 0.884보다 유의미하게 높았다(p < 0.0001).
KDD 컵 2009 데이터셋에서의 회귀 작업에서 DART는 평균 제곱 오차(MSE) 0.185를 기록했고, MART의 0.191과 랜덤 포레스트의 0.201을 모두 앞섰다.
얼굴 탐지 분류 작업에서 DART는 250개 트리로 테스트 정확도 0.9714를 달성했으며, MART의 0.9707과 랜덤 포레스트의 0.9629를 뛰어넘었다. 1106개 예측에서 통계적으로 유의미한 차이를 보였다.
DART의 리콜률(0.672)은 MART의 (0.665)보다 높아, 얼굴 탐지 데이터셋에서 극도로 불균형한 양성 클래스에서 더 우수한 성능을 보였다.
DART는 그림 1에서 볼 수 있듯이, 트리 기여도가 MART보다 더 균일하게 분포되어 있음을 통해 과도한 전문화를 줄였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.