QUICK REVIEW

[論文レビュー] Why Comparing Single Performance Scores Does Not Allow to Draw Conclusions About Machine Learning Approaches

Nils Reimers, Iryna Gurevych|arXiv (Cornell University)|Mar 26, 2018

Topic Modeling参考文献 17被引用数 32

ひとこと要約

この論文は、ニューラルネットワークなどの非決定的機械学習モデルの単一の性能スコアを比較することは、ランダムな重み初期化による高い偽陽性率のため、モデルの優位性について信頼できない結論を導くと示している。著者らは、単一のモデルではなく複数回の実行からのスコア分布を用いて学習アプローチを評価することを提案し、標準的な評価プロトコル下で、同じモデルですら22–26％の確率で統計的に有意な性能差を示すことがあることを示している。

ABSTRACT

Developing state-of-the-art approaches for specific tasks is a major driving force in our research community. Depending on the prestige of the task, publishing it can come along with a lot of visibility. The question arises how reliable are our evaluation methodologies to compare approaches? One common methodology to identify the state-of-the-art is to partition data into a train, a development and a test set. Researchers can train and tune their approach on some part of the dataset and then select the model that worked best on the development set for a final evaluation on unseen test data. Test scores from different approaches are compared, and performance differences are tested for statistical significance. In this publication, we show that there is a high risk that a statistical significance in this type of evaluation is not due to a superior learning approach. Instead, there is a high risk that the difference is due to chance. For example for the CoNLL 2003 NER dataset we observed in up to 26% of the cases type I errors (false positives) with a threshold of p < 0.05, i.e., falsely concluding a statistically significant difference between two identical approaches. We prove that this evaluation setup is unsuitable to compare learning approaches. We formalize alternative evaluation setups based on score distributions.

研究の動機と目的

異なるモデルの単一の性能スコアを比較する標準的な機械学習評価プロトコルの信頼性を調査すること。
モデル間の統計的に有意な性能差が、実際の学習アプローチの優位性ではなく、ランダムなばらつきによるものであることが多いことを示すこと。
共有タスクや論文発表において、単一の実行からの最も優れた性能を選び報告するという一般的な慣習に疑問を呈すること。
スコア分布に基づく新しい評価パラダイムを提案し、学習アプローチ間の有効な比較を可能にすること。
標準的な評価設定における第一種の誤り率（type I error rate）を定量化し、モデルの分散のため、名目上の有意水準（例：p < 0.05）を上回ることを示すこと。

提案手法

同じニューラルネットワークアーキテクチャを異なるランダムシードで複数回学習し、同じ学習アプローチに対する複数のモデルを生成する。
各モデルを同じホールドアウトテストセットで評価し、各アプローチの性能スコア（例：F1スコア）の分布を収集する。
単一のスコアではなく、スコア分布全体を考慮した統計的検定を用いて、2つの学習アプローチのスコア分布を比較する。
2つの代替評価基準を形式化する：(1) 正規性仮定下での期待スコアの比較、(2) 一方のアプローチが他方より優れたモデルを生成する確率の比較。
ペアドブートストラップリサンプリングを用いて、性能差の標本分布を推定し、複数回の実行における平均スコアの絶対差の95百分位数を計算する。
共有タスクにおいて、個々のモデルスコアではなく、複数回の実行における平均と標準偏差を報告することを提言する。

実験結果

リサーチクエスチョン

RQ1固定されたテストセット上で評価された同一のニューラルネットワークモデル同士において、ランダムな重み初期化がどれほど統計的に有意な性能差を生じるか。
RQ2開発セットのサイズが、テストスコアの分散と標準評価プロトコルにおけるモデル選択の信頼性にどのように影響するか。
RQ3単一のモデルスコアに基づく標準的有意水準検定を用いて、同一の学習アプローチを比較する際の実際の第一種の誤り率はどの程度か。
RQ4複数回のモデル実行からのスコア分布は、単一モデルの性能スコアよりも、学習アプローチを比較する上で信頼性が高いか。
RQ5共有タスクにおいて、所望の有意水準（例：p < 0.05）で信頼できる比較を達成するための最小のモデル実行回数はどの程度か。

主な発見

CoNLL 2003 NERデータセットでは、同一のニューラルネットワークモデル同士の比較において、26％までが統計的に有意な差（p < 0.05）を示しており、偽陽性率が非常に高いことが示された。
CoNLL 2003 NER-Enタスクにおいて、10回の実行における平均テストスコアの絶対差の95百分位数は、F1スコアで0.26パーセンテージポイントであった。これは、中程度の繰り返しでも顕著な分散が生じることを示している。
ACE 2005 Eventsデータセットでは、10回の実行における平均スコアの絶対差の95百分位数がF1スコアで1.39パーセンテージポイントに達しており、実行回数ごとの性能の高さが顕著に変動することを示している。
単一モデルスコアに基づく有意水準検定における第一種の誤り率は、名目上のp値（例：p < 0.05の場合は5％）と一致しており、有意水準検定自体は有効であるが、その結果から導かれる結論は信頼できないことが示された。
開発セットはテストスコアの分散に大きな影響を与える。不適切または小さな開発セットは、同じ学習アプローチに対しても、任意に大きなテストパフォーマンスの差を引き起こす可能性がある。
共有タスクにおいて、単一のモデルのみを提出することは信頼できない。著者らは、チームごとに少なくとも6つのモデルを提出し、平均と標準偏差を報告することで、スコア分布の有効な比較を可能にすべきだと提言している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。