Skip to main content
QUICK REVIEW

[論文レビュー] CatBoost: gradient boosting with categorical features support

Anna Veronika Dorogush, Vasily Ershov|arXiv (Cornell University)|Oct 24, 2018
Music and Audio Processing参考文献 15被引用数 1,325
ひとこと要約

CatBoost は、カテゴリ特徴をネイティブに扱い、GPU および CPU 実装で、公開データセットの複数において XGBoost、LightGBM、H2O より精度(logloss)で上回るオープンソースの勾配ブースティングライブラリです。

ABSTRACT

In this paper we present CatBoost, a new open-sourced gradient boosting library that successfully handles categorical features and outperforms existing publicly available implementations of gradient boosting in terms of quality on a set of popular publicly available datasets. The library has a GPU implementation of learning algorithm and a CPU implementation of scoring algorithm, which are significantly faster than other gradient boosting libraries on ensembles of similar sizes.

研究の動機と目的

  • カテゴリ特徴を過剰な前処理なしで効果的に利用する勾配ブースティング手法の必要性を動機づける。
  • カテゴリデータ向けに特化した新しい勾配ブースティングアルゴリズムとして CatBoost を導入する。
  • CatBoost が多様なデータセット上で既存の GBDT ライブラリよりも高い予測品質を達成することを示す。
  • 新しい葉値計算スキームと勾配バイアス処理によって過剰適合を抑制する CatBoost の方法を説明する。

提案手法

  • 訓練中に新規の統計ベースのエンコーディング(プライア)を用いてカテゴリ特徴を扱う勾配ブースティングアルゴリズムを提示する。
  • oblivious trees をベース予測子として、バランスのとれた固定深度構造を採用する。
  • 各サンプルの無偏性勾配を推定するために別々のモデルを訓練する、勾配バイアス対策メカニズムを導入する。
  • 特徴をビニングし、葉のインデックス作成に二値特徴ベクトルを用いることで CPU での高速スコアリングを実現する。
  • ヒストグラムベースの分割探索とグループ別ヒストグラムを用いた GPU 加速トレーニング経路を提供してスループットを向上させる。
  • 特徴の組み合わせのサポートと組み合わせ特徴のその場生成を可能にしつつ、組合せ爆発を回避する。

実験結果

リサーチクエスチョン

  • RQ1CatBoost は、カテゴリ値が高い特徴を持つデータセットで、XGBoost、LightGBM、H2O と比較して予測精度を改善できるか。
  • RQ2CatBoost は、同等の規模のアンサンブルで、GPU 上のトレーニング速度を実際に向上させつつ、モデル品質を維持または向上させるか。
  • RQ3CatBoost は、カテゴリ特徴を用いた勾配ブースティングにおける勾配バイアスと過剰適合をどのように緩和するか。
  • RQ4CatBoost におけるカテゴリ特徴間の相互作用を捉えるための特徴の組み合わせを実用的に適用するときの実務的影響は何か。

主な発見

  • CatBoost は、分類タスクの logloss の観点で、公開ベンチマークデータセットのセットにおいて XGBoost、LightGBM、H2O を上回る。
  • CatBoost の GPU 実装は CPU 版より大幅に速く訓練され、同様のサイズのアンサンブルに対して競合する GPU GBM を上回る。
  • CatBoost は、比較可能なアンサンブルサイズで XGBoost および LightGBM と比較して CPU でのモデルスコアリングをより高速に提供する。
  • 統計量計算の複数の順列と priors ベースのエンコーディングを用いることで、高位のカテゴリの過剰適合を抑制する。
  • 葉値計算と勾配バイアス低減戦略は、標準的な GBDT アプローチよりも一般化性能の向上に寄与する。
  • Epsilon などのデータセットでは、適切なビン数で設定した場合、XGBoost および LightGBM と比較して CatBoost の訓練速度とスコアリング性能が有利であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。