Skip to main content
QUICK REVIEW

[논문 리뷰] CatBoost: gradient boosting with categorical features support

Anna Veronika Dorogush, Vasily Ershov|arXiv (Cornell University)|2018. 10. 24.
Music and Audio Processing참고 문헌 15인용 수 1,325
한 줄 요약

CatBoost는 범주형 특징을 네이티브로 처리하는 오픈 소스 그래디언트 부스팅 라이브러리이며, 여러 공개 데이터셋에서 GPU 및 CPU 구현으로 정확도(logloss) 측면에서 XGBoost, LightGBM 및 H2O를 능가합니다.

ABSTRACT

In this paper we present CatBoost, a new open-sourced gradient boosting library that successfully handles categorical features and outperforms existing publicly available implementations of gradient boosting in terms of quality on a set of popular publicly available datasets. The library has a GPU implementation of learning algorithm and a CPU implementation of scoring algorithm, which are significantly faster than other gradient boosting libraries on ensembles of similar sizes.

연구 동기 및 목표

  • 범주형 특징을 효과적으로 활용하는 대규모 전처리 없이도 그라디언트 부스팅 방법의 필요성을 촉진한다.
  • 범주형 데이터를 겨냥한 새로운 그라디언트 부스팅 알고리즘으로 CatBoost를 소개한다.
  • CatBoost가 다양한 데이터셋에서 기존 GBDT 라이브러리보다 더 높은 예측 품질을 달성하는 것을 보여준다.
  • 새로운 잎 값 계산 방식과 그래디언트 바이어스 처리로 과적합을 완화하는 방법을 설명한다.

제안 방법

  • priors를 가진 새로운 통계 기반 인코딩을 사용하여 학습 중에 범주형 특징을 처리하는 그래디언트 부스팅 알고리즘을 제시한다.
  • 기반 예측기로서 균형 잡히고 고정 깊이 구조의 oblivious 트리를 사용한다.
  • 각 예제에 대해 편향 없는 그래디언트를 추정하기 위해 별도의 모델을 학습시키는 그래디언트 바이어스 킬링 메커니즘을 도입한다.
  • 특성 이진화와 이진 특성 벡터를 잎 인덱싱에 사용하여 빠른 CPU 스코어러를 활용한다.
  • 히스토그램 기반 분할 찾기와 그룹 기반 히스토그램을 사용하여 처리량을 개선하는 GPU 가속 학습 경로를 제공한다.
  • 특성 조합에 대한 지원 및 조합 특성의 필요 없이 실시간으로 생성하는 기능을 제공한다.

실험 결과

연구 질문

  • RQ1CatBoost가 XGBoost, LightGBM, H2O에 비해 고유 수의 범주형 특징을 가진 데이터셋에서 예측 정확도를 향상시킬 수 있는가?
  • RQ2GPU에서 모델 품질을 유지하거나 개선하면서 훈련 속도에 실질적인 이점이 있는가?
  • RQ3CatBoost는 범주형 특징을 갖는 그래디언트 부스팅에서 그래디언트 바이어스와 과적합을 어떻게 완화하는가?
  • RQ4CatBoost에서 범주형 특징 간의 상호 작용을 포착하기 위해 특징 조합을 사용하는 것의 실제 의미는 무엇인가?

주요 결과

  • CatBoost가 분류 작업의 로그손실 측면에서 공개 벤치마크 데이터세트 세트에서 XGBoost, LightGBM 및 H2O보다 우수하다.
  • CatBoost의 GPU 구현은 CPU 버전보다 훨씬 빠르게 학습하며 비슷한 크기의 앙상블에서 경쟁 GPU GBM보다 우수하다.
  • 대응되는 앙상블 크기에서 XGBoost 및 LightGBM에 비해 CPU에서 더 빠르게 모델 스코어링을 제공한다.
  • 통계 계산에 대한 여러 순열과 Priori 기반 인코딩은 고유 수의 범주에서 과적합을 감소시킨다.
  • 잎 값 계산 및 그래디언트 바이어스 완화 전략은 표준 GBDT 접근 방식에 비해 일반화를 향상시킨다.
  • Epsilon 및 다른 데이터셋에서 CatBoost는 합리적인 비닝 수로 구성했을 때 XGBoost 및 LightGBM과 비교하여 학습 속도와 스코어링 성능이 우호적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.