Skip to main content
QUICK REVIEW

[論文レビュー] Comparison of 14 different families of classification algorithms on 115 binary datasets

Jacques Wainer|Deep Blue (University of Michigan)|Jun 2, 2016
Machine Learning and ELM参考文献 19被引用数 61
ひとこと要約

本研究では、115個の二値データセットを用いて、14種類の分類アルゴリズムファミリーを、きめ細かなハイパーパrameterチューニングと統計的分析を用いて評価した。その結果、ランダムフォレスト、勾配ブースティングマシン(gbm)、RBF SVMが最も優れた性能を示し、誤差率に実質的な差がない(閾値:0.0112)ことが判明した。また、RBF SVMは学習および推論において顕著に高速であった。

ABSTRACT

We tested 14 very different classification algorithms (random forest, gradient boosting machines, SVM - linear, polynomial, and RBF - 1-hidden-layer neural nets, extreme learning machines, k-nearest neighbors and a bagging of knn, naive Bayes, learning vector quantization, elastic net logistic regression, sparse linear discriminant analysis, and a boosting of linear classifiers) on 115 real life binary datasets. We followed the Demsar analysis and found that the three best classifiers (random forest, gbm and RBF SVM) are not significantly different from each other. We also discuss that a change of less then 0.0112 in the error rate should be considered as an irrelevant change, and used a Bayesian ANOVA analysis to conclude that with high probability the differences between these three classifiers is not of practical consequence. We also verified the execution time of "standard implementations" of these algorithms and concluded that RBF SVM is the fastest (significantly so) both in training time and in training plus testing time.

研究の動機と目的

  • 実世界の二値データセットを用いて、14種類の多様な分類アルゴリズムファミリーを、きめ細かなハイパーパrameterチューニングを伴って比較すること。
  • 二値分類タスクにおける最も正確で効率的なアルゴリズムを特定すること。
  • 誤差率の差の実用的無関係性の閾値(0.0112)を確立し、アルゴリズム選定を支援すること。
  • ベイジアンANOVAを用いて、上位アルゴリズム間の性能差が実用的に意味のあるものかどうかを評価すること。
  • 従来の研究の限界(デフォルトのハイパーパrameterや多値分類への拡張)を解消するため、二値問題に焦点を当て、標準的な実装を用いること。

提案手法

  • 本研究では、UCIレポジトリから得た115個の二値データセットを用い、多値問題から変換した。
  • 各アルゴリズムに対して、デフォルト値を避けるために慎重に選定されたハイパーパrameter範囲を用いてチューニングを行った。
  • アルゴリズム性能の非パラメトリックな統計的比較には、Demsar手順を適用した。
  • 性能差が実用的に無関係である確率を評価するために、ベイジアンANOVAモデルを用いた。
  • 誤差率差の閾値0.0112は、効果量の考察から導出され、実用的無関係性の定義に用いられた。
  • 実行時間は、標準的なR実装を用いて測定し、学習および推論の効率を比較した。

実験結果

リサーチクエスチョン

  • RQ1ハイパーパrameterが最適にチューニングされた場合、どの分類アルゴリズムファミリーが二値データセットで最も高い正確性を達成するか?
  • RQ2上位性能を示すアルゴリズム間の性能差は、実用的に有意であるか、それとも無視できるほど小さいか?
  • RQ3標準的な実装における上位アルゴリズムの学習および推論時間は、どのように比較されるか?
  • RQ4ベイジアンANOVAモデルは、小さな誤差率差の実用的関係性を効果的に評価できるか?
  • RQ5多値分類への拡張を除外し、二値問題に焦点を当てた結果は、従来の大規模な比較とは異なる結論を導くか?

主な発見

  • ランダムフォレスト、勾配ブースティングマシン(gbm)、RBF SVMは、誤差率に統計的に有意な差がない上位3つのアルゴリズムである。
  • これらの3つのアルゴリズム間の誤差率差は、実用的無関係性の閾値0.0112未満であり、性能差が意味を持たないことを示している。
  • RBF SVMは、ランダムフォレストおよびgbmと比較して、学習および学習+テスト時間の両方で顕著に高速である。
  • 多項式カーネルSVM、エクストリームラーニングマシン、1層隠れ層ニューラルネットワークは同程度の性能を示し、上位3つと顕著に優れていない。
  • ベイジアンANOVAは、上位3つのアルゴリズム間の差が実用的に意味を持たない確率が非常に高いことを確認した。
  • 本研究では、特にランダムフォレストおよび勾配ブースティングマシンにおいて、体系的なハイパーパrameterチューニングの研究が不足していることが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。