QUICK REVIEW

[論文レビュー] Random Forests, Decision Trees, and Categorical Predictors: The "Absent Levels" Problem

Timothy C. Au|arXiv (Cornell University)|Jun 12, 2017

Machine Learning and Data Classification参考文献 16被引用数 41

ひとこと要約

この論文は、ランダムフォレストなどの意思決定木ベースのモデルにおける「欠落レベル問題」を特定し、分析している。これは、推論時に未観測のカテゴリカルな水準が存在する場合、それらの水準がトレーニング時に存在しないために分割の挙動が定義されておらず、結果として系統的なバイアスが生じる問題である。著者らは、実世界の例と実証的テストを通じて、特にランダムヒューリスティクスが、デフォルトのナイーブなアプローチよりも効果的にこのバイアスを軽減できることを示している。後者のアプローチは、系統的に欠陥がある。

ABSTRACT

One advantage of decision tree based methods like random forests is their ability to natively handle categorical predictors without having to first transform them (e.g., by using feature engineering techniques). However, in this paper, we show how this capability can lead to an inherent "absent levels" problem for decision tree based methods that has never been thoroughly discussed, and whose consequences have never been carefully explored. This problem occurs whenever there is an indeterminacy over how to handle an observation that has reached a categorical split which was determined when the observation in question's level was absent during training. Although these incidents may appear to be innocuous, by using Leo Breiman and Adele Cutler's random forests FORTRAN code and the randomForest R package (Liaw and Wiener, 2002) as motivating case studies, we examine how overlooking the absent levels problem can systematically bias a model. Furthermore, by using three real data examples, we illustrate how absent levels can dramatically alter a model's performance in practice, and we empirically demonstrate how some simple heuristics can be used to help mitigate the effects of the absent levels problem until a more robust theoretical solution is found.

研究の動機と目的

意思決定木ベースのモデルにおける「欠落レベル問題」を特定・形式化すること。具体的には、推論時に存在するがトレーニング時に存在しないカテゴリカル予測変数の水準が、分割の挙動を定義できないことによる問題を対象とする。
この問題が、ランダムフォレストRパッケージやブライマン＆カットラーのFORTRANコードなど広く使われている実装において、系統的なバイアスを引き起こすことを実証すること。
3つの実世界データセットを用いて、欠落レベルの影響を実証的に評価し、未処理の場合に顕著な性能低下が生じることを示すこと。
ランダム、マジョリティ、ワンホットエンコーディングなどの実用的ヒューリスティクスを提案・評価し、堅牢な理論的解決策が開発されるまでの間、欠落レベル問題を軽減する手法を提供すること。
ソフトウェアおよびユーザー層の変更を提言すること。具体的には、特徴工学と、ランダムなどの信頼性の高いヒューリスティクスの採用を通じて、生産環境におけるバイアス予測を回避すること。

提案手法

本研究では、ブライマンとカットラーのオリジナルのランダムフォレストFORTRANコードと、広く使われているrandomForest Rパッケージを事例として選び、実際の欠落レベルの処理方法を分析する。
著者らは、3つの実世界データセットを用いて、欠落レベル問題をシミュレートし、推論時に以前に観測されていなかったカテゴリカル水準を導入することで、モデルの挙動と性能低下を評価する。
左/右（デフォルトのナイーブな選択）、ストップ（予測を停止）、DBI（距離に基づく補完）、マジョリティ、ランダム、ワンホットエンコーディングの複数のヒューリスティクスを評価する。
性能はログロスで測定され、各ヒューリスティクスの堅牢性と一貫性を評価するために、1,000回の実験リピートを実施する。
ランダムヒューリスティクスは、一貫したパフォーマンスと、既存のrandomForest Rパッケージワークフローへの容易な統合性から、プラグインソリューションとして実装された。
ヒューリスティクスのパフォーマンスは、ベースラインのナイーブアプローチと比較され、バイアス、分散、予測精度のトレードオフが評価された。

実験結果

リサーチクエスチョン

RQ1推論時に以前に観測されていなかったカテゴリカル水準が、ランダムフォレストなどの意思決定木ベースのモデルの挙動とパフォーマンスにどのように影響を与えるか？
RQ2なぜランダムフォレストのデフォルト実装（例：randomForest Rパッケージ）が、カテゴリカル水準が欠落している場合に系統的なバイアスを生じるのか？
RQ3多様な実世界データセットにおいて、欠落水準を処理するためのどのヒューリスティクス戦略が、最も堅牢で正確な予測を達成するか？
RQ4トレーニング段階でデータが存在しない状況において、単純な実用的ヒューリスティクスが、左/右分割といったデフォルトのナイーブ戦略を上回る可能性はあるか？
RQ5特徴工学は、欠落レベル問題をどの程度軽減できるか？また、ヒューリスティクスベースの解決策に比べて、どのような状況で効果が薄れるのか？

主な発見

欠落レベル問題は、ランダムフォレストおよび意思決定木において系統的なバイアスを引き起こす。デフォルト実装（例：randomForest Rパッケージ、ブライマン＆カットラーのFORTRANコード）は、水準が未観測の場合に、任意の左または右の決定を下す。
左および右のヒューリスティクスは、最良の欠落データヒューリスティクスよりもログロスでそれぞれ0.7%および1.9%悪く、明確で一貫したバイアスが確認された。
マジョリティおよびランダムヒューリスティクスは、1,000回の再現のうち999回で他のすべての欠落データヒューリスティクスを上回り、最小のログロスを達成し、高い信頼性を示した。
ワンホットエンコーディングヒューリスティクスは、まれに欠落データヒューリスティクスを上回ったが、平均では最良のヒューリスティクスよりも4.5%高いログロスを示し、性能が劣ることが判明した。
ランダムヒューリスティクスは一貫して競争力があり、実装が容易であり、ソフトウェアおよびユーザー層の代替手段としての一時的基準として推奨された。
この問題は予測にとどまらず、変数重要度、外れ値検出、木ベースモデルにおける補完など、下流タスクにも影響を及ぼし、機械学習パイプライン全体に広範な影響を及ぼす可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。