[논문 리뷰] What are the best systems? New perspectives on NLP Benchmarking
여러 작업에 걸친 NLP 벤치마크 결과를 합치기 위해 Kemeny 합의에 기반한 랭킹 방법을 제안하며, 평균 집계보다 더 신뢰성과 강건성을 보일 수 있음.
In Machine Learning, a benchmark refers to an ensemble of datasets associated with one or multiple metrics together with a way to aggregate different systems performances. They are instrumental in (i) assessing the progress of new methods along different axes and (ii) selecting the best systems for practical use. This is particularly the case for NLP with the development of large pre-trained models (e.g. GPT, BERT) that are expected to generalize well on a variety of tasks. While the community mainly focused on developing new datasets and metrics, there has been little interest in the aggregation procedure, which is often reduced to a simple average over various performance measures. However, this procedure can be problematic when the metrics are on a different scale, which may lead to spurious conclusions. This paper proposes a new procedure to rank systems based on their performance across different tasks. Motivated by the social choice theory, the final system ordering is obtained through aggregating the rankings induced by each task and is theoretically grounded. We conduct extensive numerical experiments (on over 270k scores) to assess the soundness of our approach both on synthetic and real scores (e.g. GLUE, EXTREM, SEVAL, TAC, FLICKR). In particular, we show that our method yields different conclusions on state-of-the-art systems than the mean-aggregation procedure while being both more reliable and robust.
연구 동기 및 목표
- 다중 작업과 메트릭 간의 단순 평균을 넘는 NLP 벤치마크에 대한 개선된 집계 동기 부여.
- 사회 선택 이론(Kemeny 합의)에 기초한 랭킹 집계 프레임워크 도입.
- 스케일 가능한 근사 방법(Borda의 개수) 및 작업 수준 및 인스턴스 수준 정보를 위한 실용적 집계 절차 제공.
- 제안된 방법의 강건성과 신뢰성 평가 대규모 NLP 벤치마크 데이터에서.
제안 방법
- NLP 벤치마크에 대한 작업 수준 및 인스턴스 수준 집계 설정 정의.
- 작업 수준 랭킹을 최종 시스템 랭킹으로 합치기 위해 Kemeny 합의 채택.
- NP-hard Kemeny 최적화를 확장 가능한 근사 솔루션으로서 Borda 점수 사용.
- 두 가지 인스턴스 수준 집계 절차: 이층(2l) 및 일층(l) 집계 제공.
- Kendall 거리(Kendall distance)와 Kendall 타우 상관계로 랭킹 비교.
- 합성 실험 및 대규모 실증 데이터에서 점수 조작 및 스케일링에 대한 강건성 시연.
실험 결과
연구 질문
- RQ1Kemeny 합의 기반 랭킹이 다중 작업 NLP 벤치마크에서 평균 집계보다 더 신뢰할 수 있는 시스템 순서를 산출하는가?
- RQ2랭킹 기반 집계는 점수 조작 및 작업 간 스케일 변화에 대해 얼마나 강인한가?
- RQ3작업 추가/제거가 결과 랭킹에 미치는 영향은 무엇인가?
- RQ4실제로 대형 NLP 벤치마크에서 작업 수준과 인스턴스 수준 집계가 어떻게 비교되는가?
주요 결과
- Kemeny 합의를 통한 랭킹은 평균 집계와 다른 상위 시스템을 산출할 수 있다.
- 두 가지 수준의 집계(2l)가 조작 및 작업 변경에 대해 제시된 방법들 중 가장 강건하다.
- 랭킹 기반 방법은 평균 집계보다 작업 추가/제거에 대한 강건성이 더 크다.
- GLUE, SGLUE, XTREM, NLG 데이터셋에서 대규모 실험에서 작업 수준 랭킹은 평균 기반 랭킹과 다르며, 상위 시스템에 대한 높은 일치를 보이지만 순서는 다르다.
- 저자들은 다중 작업 및 다중 기준 벤치마크 채택을 촉진하기 위한 코드와 데이터를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.