QUICK REVIEW

[논문 리뷰] Should we really use post-hoc tests based on mean-ranks?

Alessio Benavoli, Giorgio Corani|arXiv (Cornell University)|2015. 05. 09.

Data Mining Algorithms and Applications참고 문헌 9인용 수 229

한 줄 요약

이 논문은 다수의 알고리즘 비교에서 평균 순위 후행 검정을 사용하는 것을 반박하며, 그 결과가 테스트된 전체 알고리즘 집합에 의존하기 때문에 일관되지도 않고 모순적인 결론을 초래할 수 있다고 주장한다. 대신 두 알고리즘 간의 비교에만 의존하는 쌍별 검정(예: 부호 검정 또는 Wilcoxon 부호 순위 검정)을 사용할 것을 제안하여 더 신뢰할 수 있고 일관된 추론을 보장한다.

ABSTRACT

The statistical comparison of multiple algorithms over multiple data sets is fundamental in machine learning. This is typically carried out by the Friedman test. When the Friedman test rejects the null hypothesis, multiple comparisons are carried out to establish which are the significant differences among algorithms. The multiple comparisons are usually performed using the mean-ranks test. The aim of this technical note is to discuss the inconsistencies of the mean-ranks post-hoc test with the goal of discouraging its use in machine learning as well as in medicine, psychology, etc.. We show that the outcome of the mean-ranks test depends on the pool of algorithms originally included in the experiment. In other words, the outcome of the comparison between algorithms A and B depends also on the performance of the other algorithms included in the original experiment. This can lead to paradoxical situations. For instance the difference between A and B could be declared significant if the pool comprises algorithms C, D, E and not significant if the pool comprises algorithms F, G, H. To overcome these issues, we suggest instead to perform the multiple comparison using a test whose outcome only depends on the two algorithms being compared, such as the sign-test or the Wilcoxon signed-rank test.

연구 동기 및 목표

Friedman 검정 이후 알고리즘 비교 연구에서 사용되는 평균 순위 후행 검정의 근본적인 모순을 규명하는 것.
평균 순위 비교의 결과가 비교 중인 두 알고리즘 외의 전체 알고리즘 풀에 의존한다는 것을 보여주는 것.
이 의존성으로 인해 동일한 알고리즘 쌍에 대해 다른 알고리즘 집합이 포함될 경우에 따라 유의미한 차이가 있다고 선언되기도 하고, 그렇지 않다고 선언되기도 하는 역설적인 결과가 발생할 수 있다는 것을 주장하는 것.
비모수적 쌍별 검정(예: 부호 검정 또는 Wilcoxon 부호 순위 검정)을 사용하여 비교에 영향을 주는 두 알고리즘에만 의존하는 더 견고한 대안을 제안하는 것.
기계학습, 의학, 심리학 및 관련 분야에서 평균 순위 검정의 사용을 금지할 것을 주장하며, 그 이유는 본질적인 논리적 결함이 존재하기 때문이다.

제안 방법

실험에 포함된 전체 알고리즘 집합에 대한 평균 순위 후행 검정의 의존성 분석.
논리적 및 가정적 예시를 통해 두 알고리즘(A와 B) 간의 비교 유의성은 다른 알고리즘(C, D, E 대신 F, G, H)이 포함되어 있을 때 달라질 수 있음을 입증하는 것.
두 알고리즘 간 비교에만 의존하는 부호 검정 또는 Wilcoxon 부호 순위 검정을 대안으로 제안하는 것.
이러한 대안 검정은 다른 알고리즘의 포함 여부에 영향을 받지 않아 일관된 추론을 보장한다는 것을 강조하는 것.
이러한 쌍별 검정이 신뢰할 수 있고 맥락에 의존하지 않는 차이를 규명하는 데 더 적합하다는 이론적 근거를 제시하는 것.

실험 결과

연구 질문

RQ1평균 순위 후행 검정의 결과는 비교 중인 두 알고리즘 외의 전체 알고리즘 집합에 의존하는가?
RQ2동일한 두 알고리즘 간 비교가 다른 알고리즘의 포함 여부에 따라 서로 다른 통계적 유의성 결과를 낼 수 있는가?
RQ3두 알고리즘 간 비교에만 의존하여 일관된 추론을 보장하는 대안 후행 검정이 존재하는가?
RQ4왜 평균 순위 검정의 사용이 기계학습, 의학, 심리학 분야에서 문제시되는가?
RQ5다수의 알고리즘 비교 상황에서 평균 순위 검정이 초래하는 논리적 모순은 무엇인가?

주요 결과

평균 순위 후행 검정은 결과가 비교 중인 두 알고리즘 외의 전체 알고리즘 풀에 의존하기 때문에 일관되지 않은 결과를 초래한다.
동일한 성능 데이터를 바탕으로 하더라도, 다른 제3자 알고리즘의 포함 여부에 따라 A와 B 알고리즘 간의 차이가 한 실험에서는 유의미하다고 선언되고, 다른 실험에서는 그렇지 않다고 선언될 수 있다.
이러한 의존성은 알고리즘 비교 연구에서 통계적 결론의 신뢰성과 해석 가능성에 해를 끼치는 역설적인 상황을 초래한다.
부호 검정과 Wilcoxon 부호 순위 검정는 결과가 비교 중인 두 알고리즘에만 의존하기 때문에 타당한 대안가능하며, 이러한 일관성의 결여를 피할 수 있다.
논문은 평균 순위 후행 검정이 본질적인 논리적 결함이 존재하기 때문에 기계학습 및 관련 분야에서 사용을 금지해야 한다고 결론을 내린다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.