Skip to main content
QUICK REVIEW

[論文レビュー] An Approach to Multiple Comparison Benchmark Evaluations that is Stable Under Manipulation of the Comparate Set

Ali Ismail-Fawaz, Angus Dempster|arXiv (Cornell University)|May 19, 2023
Machine Learning and Data Classification被引用数 12
ひとこと要約

著者らは Multiple Comparison Matrix (MCM) を紹介する。安定したペアワイズ比較と記述統計を重視するベンチマーク要約手法で、既存の CD 図における操作リスクに対処する。Python で実装されており、公開されている。

ABSTRACT

The measurement of progress using benchmarks evaluations is ubiquitous in computer science and machine learning. However, common approaches to analyzing and presenting the results of benchmark comparisons of multiple algorithms over multiple datasets, such as the critical difference diagram introduced by Demšar (2006), have important shortcomings and, we show, are open to both inadvertent and intentional manipulation. To address these issues, we propose a new approach to presenting the results of benchmark comparisons, the Multiple Comparison Matrix (MCM), that prioritizes pairwise comparisons and precludes the means of manipulating experimental results in existing approaches. MCM can be used to show the results of an all-pairs comparison, or to show the results of a comparison between one or more selected algorithms and the state of the art. MCM is implemented in Python and is publicly available.

研究の動機と目的

  • 多アルゴリズム・多データセット比較における既存のベンチマーク要約手法(例:CD 図)の限界を動機づける。
  • 比較対象の追加/削除に対する安定性とペアワイズ比較を優先する新しいベンチマーク要約手法を提案する。
  • Python での実用的な、オープンソースの実装を提供する。
  • MCM が操作の可能性と NHST への過度の依存をどのように低減するかを論じる。
  • 計算機科学と ML におけるベンチマークの記述統計指向の枠組みを推進する。

提案手法

  • Multiple Comparison Matrix (MCM) をペアワイズ比較統計のグリッドとして定義する。
  • グループ全体の比較とペアワイズ比較を分離し、研究を跨ぐペアワイズ結果の安定性を保つ。
  • 他の比較対象に依存せずに、ペアワイズ結論が不変となるように、ガンマという測度で比較対象を並べる。
  • 記述統計を NHST の推測的側より強調する点を強調する。
  • この枠組みの補完的な選択肢として、既存の統計ツール(例:Wilcoxon検定、Bayesian signed rank test)を参照する。
  • プロジェクトリポジトリで MCM のオープンソースの Python 実装を提供する。
Figure 1 : An example CD diagram. The best average rank is placed to the right and the worst to the left.
Figure 1 : An example CD diagram. The best average rank is placed to the right and the worst to the left.

実験結果

リサーチクエスチョン

  • RQ1従来の CD 図は、比較対象が追加・削除されるときにどのように安定したペアワイズ比較を提供できなくなるのか。
  • RQ2研究に含まれる比較対象の集合に対してペアワイズ結論を不変にするようなベンチマーク要約手法を設計できるか。
  • RQ3記述統計とペアワイズ分析を優先することは、解釈性を向上させ、マルチタスクベンチマーク評価における操作リスクを低減するか。
  • RQ4研究者が採用できる、アクセスしやすいオープンソースのソフトウェアパッケージとして MCM をどのように実装できるか。
  • RQ5代替統計手法(例:Bayesian signed rank)は MCM フレームワーク内でどのような役割を果たすか。

主な発見

  • ペアワイズ比較を優先し、結果の操作を減らす新しいベンチマーク要約法(MCM)が提案されている。
  • MCM は、他の比較対象が追加または削除されても、2つの比較対象間のペアワイズ結果が一定に保たれるように設計されている。
  • MCM はグループ全体の比較とペアワイズ比較を分離し、結果の安定性と解釈性を高める。
  • この手法は記述統計を NHST の推測的側より強調し、ベンチマーク文脈における p 値の批判に対処する。
  • MCM のオープンソースの Python 実装がコミュニティの利用のため提供されている。
Figure 2 : Manipulation of the ranks of DrCIF and InceptionTime—and the statistical significance of their pairwise differences—by inclusion of similar comparates. When ResNet is replaced by STSF, DrCIF moves from a ‘worse’ to a ‘better’ rank, and the pairwise differences between DrCIF and InceptionT
Figure 2 : Manipulation of the ranks of DrCIF and InceptionTime—and the statistical significance of their pairwise differences—by inclusion of similar comparates. When ResNet is replaced by STSF, DrCIF moves from a ‘worse’ to a ‘better’ rank, and the pairwise differences between DrCIF and InceptionT

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。