QUICK REVIEW

[論文レビュー] DART: Dropouts meet Multiple Additive Regression Trees

K. V. Rashmi, Ran Gilad-Bachrach|arXiv (Cornell University)|May 7, 2015

Explainable Artificial Intelligence (XAI)参考文献 11被引用数 137

ひとこと要約

本稿では、複数の加法的回帰木（MART）における過剰専用化（後続の木が少数のインスタンスにのみ寄与する現象）を軽減するための新しい正則化手法DARTを提案する。DARTは学習中に木全体をランダムにドロップアウトすることで、ドロップアウトを木のレベルに適用し、モデルの汎化性能を向上させる。DARTは順位付け、回帰、分類の各タスクにおいて、MARTおよびランダムフォレストを著しく上回る性能を達成し、木の寄与がよりバランスよく、一般化性能が向上している。

ABSTRACT

Multiple Additive Regression Trees (MART), an ensemble model of boosted regression trees, is known to deliver high prediction accuracy for diverse tasks, and it is widely used in practice. However, it suffers an issue which we call over-specialization, wherein trees added at later iterations tend to impact the prediction of only a few instances, and make negligible contribution towards the remaining instances. This negatively affects the performance of the model on unseen data, and also makes the model over-sensitive to the contributions of the few, initially added tress. We show that the commonly used tool to address this issue, that of shrinkage, alleviates the problem only to a certain extent and the fundamental issue of over-specialization still remains. In this work, we explore a different approach to address the problem that of employing dropouts, a tool that has been recently proposed in the context of learning deep neural networks. We propose a novel way of employing dropouts in MART, resulting in the DART algorithm. We evaluate DART on ranking, regression and classification tasks, using large scale, publicly available datasets, and show that DART outperforms MART in each of the tasks, with a significant margin. We also show that DART overcomes the issue of over-specialization to a considerable extent.

研究の動機と目的

MARTにおける過剰専用化の問題に取り組む。後続に追加される木が少数の訓練インスタンスにのみ寄与するため、モデルの頑健性と一般化性能が低下する。
MARTにおける標準的な正則化手法であるスリーシングの限界を克服する。アンサンブルサイズが増加するにつれて、過剰専用化を完全に解消できない。
深層ニューラルネットワークにおけるドロップアウトにインspiredされた、特徴量やニューロンではなく木全体のレベルに適用する新しい正則化形式を導入する。
学習中に木全体をドロップアウトすることで、アンサンブル内のすべての木がより均等に寄与するようになり、モデルの安定性と予測性能が向上することを示す。
大規模な実世界データセットを用いてDARTを評価し、順位付け、回帰、分類の多様な機械学習タスクにおいて、MARTおよびランダムフォレストを上回ることを検証する。

提案手法

DART（Dropouts meet Additive Regression Trees）を提案する。これは、各ブースティング反復において木の一部をランダムにドロップアウトすることで、MARTの変種として機能する。
学習中、ランダムに選択された木のサブセットはアンサンブル予測への寄与を除外され、残りの木がより多くのインスタンスに一般化するよう強制される。
訓練終了後、すべての木が最終モデルに保持されるが、ドロップアウト率を補正するため、寄与量の正規化が行われ、スケーリングの一貫性が保たれる。
ドロップアウト率εを用いて、各反復における木の割合を制御し、バリデーションを用いてεを最適化することで、正則化とモデル容量のバランスを取る。
スリーシングやインスタンス・特徴量のサブサンプリングといった既存のMARTのコンponentsとドロップアウトを統合し、柔軟なハイパーパramータチューニングを可能にする。
反復的にアンサンブルを訓練する。各新しい木は、現在のアンサンブルの残差誤差にフィットするが、その反復でドロップアウトされていなければ寄与する。

実験結果

リサーチクエスチョン

RQ1MARTにおいて木全体のレベルにドロップアウトを適用することで、過剰専用化が軽減され、未知データに対する一般化性能が向上するか？
RQ2MARTにおけるドロップアウト正則化は、従来のスリーシングおよびランダムフォレストのベースラインを、多様な機械学習タスクで上回るか？
RQ3DARTを用いることで、アンサンブル内の木の寄与のバランスは、標準的なMARTと比較してどのように変化するか？
RQ4順位付け、回帰、分類の各タスクにおいて、DARTの最適なドロップアウト率とアンサンブルサイズは何か？
RQ5DARTは初期の木への感受性を低減させながら高い性能を維持できるか。これにより、モデルの頑健性が向上するか？

主な発見

DARTは、順位付け、回帰、分類の3つのタスクすべてにおいて、MARTおよびランダムフォレストを著しく上回る性能を達成し、高い精度と低い損失を実現した。
Yahoo! Learning to Rankデータセットでは、DARTがNDCG 0.892を達成したのに対し、MARTは0.884であった。有意差あり（p < 0.0001）。
KDD Cup 2009データセットにおける回帰タスクでは、DARTの平均二乗誤差（MSE）は0.185であり、MARTの0.191およびランダムフォレストの0.201を上回った。
顔検出分類タスクでは、DARTが250本の木を用いてテスト精度0.9714を達成した。MARTの0.9707およびランダムフォレストの0.9629を上回り、1106予測において有意差あり。
DARTの再現率（0.672）はMARTの（0.665）を上回り、顔検出データセットにおける極めて不均衡な陽性クラスでも優れた性能を示した。
DARTは、図1に示すように、木の寄与がMARTと比較してより均等に分散されていることから、過剰専用化が軽減されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。