Skip to main content
QUICK REVIEW

[논문 리뷰] SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems

Alex Wang, Yada Pruksachatkun|arXiv (Cornell University)|2019. 05. 02.
Topic Modeling참고 문헌 67인용 수 986
한 줄 요약

SuperGLUE는 여덟 개의 더 어려운 NLP 태스크, 공개 리더보드, 그리고 일반 목적의 언어 이해를 GLUE 이상으로 확장하기 위한 모듈식 도구 키트를 소개하며, BERT 기반 기준선은 여전히 인간 성능보다 뒤처진다.

ABSTRACT

In the last year, new models and methods for pretraining and transfer learning have driven striking performance improvements across a range of language understanding tasks. The GLUE benchmark, introduced a little over one year ago, offers a single-number metric that summarizes progress on a diverse set of such tasks, but performance on the benchmark has recently surpassed the level of non-expert humans, suggesting limited headroom for further research. In this paper we present SuperGLUE, a new benchmark styled after GLUE with a new set of more difficult language understanding tasks, a software toolkit, and a public leaderboard. SuperGLUE is available at super.gluebenchmark.com.

연구 동기 및 목표

  • GLUE보다 더 도전적이고 다양한 영어 언어 이해 태스크를 제공하여 일반 목적 NLP의 진전 상황을 더 잘 측정한다.
  • 공개 리더보드, 표준화된 데이터 분할, 그리고 공정하고 재현 가능한 평가를 촉진하기 위한 모듈식 소프트웨어 도구를 제공한다.
  • 샘플 효율적 학습, 전이 학습, 다중태스크 학습, 자기지도 학습 방법의 개발을 촉진하여 인간 성능과의 격차를 줄인다.

제안 방법

  • QA와 코어퍼런스 포함 다양한 형식의 여덟 개의 새로운 언어 이해 태스크를 제안하고, 소형에서 중형 데이터세트의 혼합을 포함한다.
  • 모델 능력과 편향을 분석하기 위한 인간 성능 기준선 및 진단 데이터세트를 제공한다.
  • SuperGLUE 태스크의 쉬운 사전학습, 다중태스크 학습 및 평가를 위한 공개적이고 PyTorch 기반 소프트웨어 스택(jiant)을 도입한다.
  • 공정한 리더보드 제출을 보장하기 위해 평가 프로토콜을 재구성하고, 명시적 데이터 사용 규칙과 저작자 표기 요건을 포함한다.

실험 결과

연구 질문

  • RQ1현 시점의 최첨단 모델에 대해 새로운 SuperGLUE 모음집은 GLUE에 비해 얼마나 어려운가?
  • RQ2사전 학습 확장, 다중태스크 학습, 전이 기술의 확장이 SuperGLUE 태스크에서 실질적인 이점을 가져오는가?
  • RQ3태스크가 더 어려워짐에 따라 모델이 보이는 언어적, 상식적, 사회적 편향은 어느 정도인가?
  • RQ4여덟 개의 SuperGLUE 태스크와 진단에서 기계 성능과 인간 성능 간의 차이는 어느 정도인가?

주요 결과

  • BERT 기반 기준선은 GLUE 시기의 모델보다 상당히 향상되었지만 평균적으로 약 20포인트 정도 인간 성능보다 뒤처진다.
  • 관련 태스크(예: MultiNLI, SWAG)에서 감독 정보를 전이하면 여러 태스크에서 추가 이점을 얻는다.
  • 성능은 BoolQ, CB, RTE, WiC에서 여전히 가장 높고 WSC, COPA와 같은 더 도전적인 태스크에서 차이가 더 작아지며 상식 추론 및 코어퍼런스의 남은 격차를 강조한다.
  • 진단 데이터세트(AX b, AX g, Winogender)는 모델이 경쟁적이긴 하지만 특정 언어 현상과 성별 편향 분석에서 여전히 어려움을 겪는다는 것을 보여준다.
  • SuperGLUE는 다중태스크, 전이 및 비감독/자기지도 학습 접근법의 개발을 촉진하는 의미 있고 더 엄격한 벤치마크를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.