QUICK REVIEW

[논문 리뷰] Why Comparing Single Performance Scores Does Not Allow to Draw Conclusions About Machine Learning Approaches

Nils Reimers, Iryna Gurevych|arXiv (Cornell University)|2018. 03. 26.

Topic Modeling참고 문헌 17인용 수 32

한 줄 요약

이 논문은 뉴럴 네트워크와 같은 비결정적 기계학습 모델의 단일 성능 점수를 비교하는 것은 무작위 가중치 초기화로 인한 높은 유사 양성률 때문에 모델의 우월성에 대한 신뢰할 수 없는 결론을 이끌 수 있음을 보여준다. 저자들은 동일한 학습 방법을 여러 번 실행한 결과의 점수 분포를 평가하는 방식을 제안하며, 표준 평가 프로토콜 하에서 심지어 동일한 모델이라도 통계적으로 유의미한 성능 차이가 22–26%의 비율로 나타날 수 있음을 시연한다.

ABSTRACT

Developing state-of-the-art approaches for specific tasks is a major driving force in our research community. Depending on the prestige of the task, publishing it can come along with a lot of visibility. The question arises how reliable are our evaluation methodologies to compare approaches? One common methodology to identify the state-of-the-art is to partition data into a train, a development and a test set. Researchers can train and tune their approach on some part of the dataset and then select the model that worked best on the development set for a final evaluation on unseen test data. Test scores from different approaches are compared, and performance differences are tested for statistical significance. In this publication, we show that there is a high risk that a statistical significance in this type of evaluation is not due to a superior learning approach. Instead, there is a high risk that the difference is due to chance. For example for the CoNLL 2003 NER dataset we observed in up to 26% of the cases type I errors (false positives) with a threshold of p < 0.05, i.e., falsely concluding a statistically significant difference between two identical approaches. We prove that this evaluation setup is unsuitable to compare learning approaches. We formalize alternative evaluation setups based on score distributions.

연구 동기 및 목표

다른 모델들 간의 단일 성능 점수를 비교하는 표준 기계학습 평가 프로토콜의 신뢰성을 조사하는 것.
통계적으로 유의미한 성능 차이가 실제 학습 방법의 우월성 때문이 아니라 무작위적 요인에 기인한 경우가 많다는 것을 입증하는 것.
공동 과제나 논문에서 단일 실행에서 가장 우수한 성능을 보인 모델만 선택하고 보고하는 일반적인 관행을 도전하는 것.
점수 분포 기반의 새로운 평가 철학을 제안하여 학습 방법 간의 타당한 비교를 가능하게 하는 것.
표준 평가 설정에서의 I종 오류 비율을 정량화하고, 모델의 변동성으로 인해 명목상의 알파 수준(p < 0.05 등)을 초과하는 것으로 보여주는 것.

제안 방법

동일한 신경망 아키텍처를 다양한 무작위 시드로 여러 번 훈련하여 동일한 학습 방법에 대한 여러 모델을 생성하는 것.
모든 모델을 동일한 검증용 테스트 세트에서 평가하여 각 학습 방법에 대해 성능 점수(예: F1 점수)의 분포를 수집하는 것.
단일 점수만을 고려하는 것이 아니라 전체 분포를 고려하는 통계적 검정을 사용해 두 학습 방법 간의 점수 분포를 비교하는 것.
두 가지 대체 평가 기준을 체계화하는 것: (1) 정규성 가정 하에서 기대 점수 비교, (2) 한 방법이 다른 방법보다 더 우수한 모델을 생성할 확률 비교.
쌍체 부트스트랩 샘플링을 사용해 성능 차이의 표본 분포를 추정하고, 실행 간 평균 점수의 절대 차이의 95번째 백분율을 계산하는 것.
공동 과제에서 개별 모델 점수 대신 다수의 실행에서의 평균 및 표준편차를 보고하는 것.

실험 결과

연구 질문

RQ1고정된 테스트 세트에서 평가할 때, 동일한 신경망 모델 간의 무작위 가중치 초기화로 인해 통계적으로 유의미한 성능 차이가 얼마나 자주 발생하는가?
RQ2개발 세트의 크기가 표준 평가 프로토콜에서 테스트 점수의 변동성과 모델 선택의 신뢰성에 어떤 영향을 미치는가?
RQ3단일 모델 점수를 기반으로 한 표준 유의수준 검정을 사용해 두 동일한 학습 방법을 비교할 때 실제 I종 오류 비율은 얼마인가?
RQ4다수의 모델 실행에서 유도된 점수 분포가 단일 모델 성능 점수보다 학습 방법 간 비교에 더 신뢰할 만한 기반을 제공할 수 있는가?
RQ5공동 과제에서 원하는 유의수준(p < 0.05 등)으로 신뢰할 수 있는 비교를 달성하기 위해 필요한 최소한의 모델 실행 수는 얼마인가?

주요 결과

CoNLL 2003 NER 데이터셋에서, 동일한 신경망 모델 간 비교에서 최대 26%의 경우가 통계적으로 유의미한 차이(p < 0.05)를 보였으며, 이는 높은 유사 양성률을 시사한다.
CoNLL 2003 NER-En 작업에서 10회의 실행 간 평균 테스트 점수의 절대 차이의 95번째 백분율은 F1 점수 기준 0.26%p였으며, 이는 중간 정도의 반복 조건에서도 상당한 변동성을 보임을 보여준다.
ACE 2005 Events 데이터셋에서 10회의 실행 간 평균 점수의 95번째 백분율 차이는 F1 점수 기준 1.39%p였으며, 이는 실행 간 성능 변동성이 높음을 강하게 시사한다.
단일 모델 점수를 기반으로 한 유의수준 검정에서의 I종 오류 비율은 명목상의 p-값(예: p < 0.05에 대해 5%)과 정확히 일치했으며, 이는 검정 자체는 유효하지만 그 결과에서 이끌어낸 결론은 유효하지 않음을 의미한다.
개발 세트는 테스트 점수의 변동성에 큰 영향을 미치며, 부적절하거나 작은 개발 세트는 동일한 학습 방법에 대해 임의로 큰 테스트 성능 차이를 초래할 수 있다.
공동 과제에서는 단일 모델만 제출하는 것이 신뢰할 수 없는 결과를 초래하므로, 저자는 각 팀이 최소 6개의 모델을 제출하고 평균 및 표준편차를 함께 보고하여 점수 분포 간의 타당한 비교를 가능하게 해야 한다고 권고한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.