Skip to main content
QUICK REVIEW

[論文レビュー] Time for a change: a tutorial for comparing multiple classifiers through\n Bayesian analysis

Alessio Benavoli, Giorgio Corani|arXiv (Cornell University)|Jun 14, 2016
Neural Networks and Applications被引用数 278
ひとこと要約

この論文は分類器比較にNHSTを放棄しベイズ推定を採用することを主張し、特に現実的同値性のためのロープを備えたベイズ相関t検定を用いて、複数データセットにわたる差異と等価性の確率を定量化する。

ABSTRACT

The machine learning community adopted the use of null hypothesis\nsignificance testing (NHST) in order to ensure the statistical validity of\nresults. Many scientific fields however realized the shortcomings of\nfrequentist reasoning and in the most radical cases even banned its use in\npublications. We should do the same: just as we have embraced the Bayesian\nparadigm in the development of new machine learning methods, so we should also\nuse it in the analysis of our own results. We argue for abandonment of NHST by\nexposing its fallacies and, more importantly, offer better - more sound and\nuseful - alternatives for it.\n

研究の動機と目的

  • 機械学習の分類器評価においてNHSTを放棄し、ベイズ分析を採用することを主張する。
  • 交差検証の依存性を適切に扱う複数データセットにわたる分類器比較のためのベイズ的フレームワークを提示する。
  • ベイズ相関t検定と現実的同値域(rope)の概念を導入し、実務的有意性と不確実性を評価する。

提案手法

  • 訓練/テストの重なりを考慮するため、ρで指定された相関を持つ共分散正規ベクトルとしてクロスバリデーション差をモデル化する。
  • 正規-ガンマ事前分布を用いて平均差μのStudent事後分布を導出し、特定の事前選択の下で実質的には従来の相関t検定と一致する。
  • ロープを用いて実務的同等性を定義し、(a) nbcがより良い、(b) 等価、(c) aodeがより良いのの事後確率を計算する。
  • 事後確率を用いて不確実性と効果量を定量化するための高密度区間(HDI)を計算する。
  • p値に依存せず、事後確率から自動的に意思決定を行う枠組みを提供する。

実験結果

リサーチクエスチョン

  • RQ1ベイズ分析は複数のデータセットを横断して、一方の分類器が他方を上回る確率をどのように定量化できるか?
  • RQ2クロスバリデーションの相関ρを組み込むと、分類器性能の平均差の推定にどのような影響を与えるか?
  • RQ3分類器間の実務的同等性(rope)を意味ある形で定義・測定できるか、同等性または差の事後確率はどうか?
  • RQ4ベイズ事後要約(例:HDI)は、分類器比較の効果量と不確実性をNHSTと比較してどのように伝えるか?

主な発見

  • NHSTは交差検証結果の依存性とp値の解釈の問題から、分類器を評価する際に誤解を招くことがある。
  • ベイズ相関t検定は、同じデータに対して、頻度論的p値と数値的に同等になることがあるが、異なる解釈と意思決定を支持する事後μ分布を生み出す。
  • 54データセット中、aodeがnbcより実務的に優れていたデータセットは12、nbcとaodeが実務的に等価だったデータセットは6、nbcがaodeより実務的に優れていたデータセットはない。
  • rope(実務的同等性の領域)は、nbc ≪ aode、nbc ≈ aode、nbc ≫ aode の確率を事後から直接推定することを可能にする。
  • 事後分布はHDIを介して大きさと不確実性を提供し、単なる有意/無有意以上のニュアンスのある結論を可能にする。
  • この枠組みはp値に頼らず、事後確率を用いて合理的な自動意思決定をサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。