QUICK REVIEW

[논문 리뷰] The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics

Sebastian Gehrmann, Tosin Adewumi|arXiv (Cornell University)|2021. 02. 02.

Topic Modeling참고 문헌 111인용 수 52

한 줄 요약

GEM은 생생하고 다국어를 다루는 NLG를 위한 벤치마크를 도입하며, 생성, 평가 및 지표에 중점을 두고, 열린 데이터 카드, 챌린지 세트 및 유연한 평가 프레임워크를 제공합니다.

ABSTRACT

We introduce GEM, a living benchmark for natural language Generation (NLG), its Evaluation, and Metrics. Measuring progress in NLG relies on a constantly evolving ecosystem of automated metrics, datasets, and human evaluation standards. Due to this moving target, new models often still evaluate on divergent anglo-centric corpora with well-established, but flawed, metrics. This disconnect makes it challenging to identify the limitations of current models and opportunities for progress. Addressing this limitation, GEM provides an environment in which models can easily be applied to a wide set of tasks and in which evaluation strategies can be tested. Regular updates to the benchmark will help NLG research become more multilingual and evolve the challenge alongside models. This paper serves as the description of the data for which we are organizing a shared task at our ACL 2021 Workshop and to which we invite the entire NLG community to participate.

연구 동기 및 목표

모델과 평가 표준의 변화에 따라 진화하는 생생하고 다국어를 다루는 NLG 벤치마크 생태계를 제공합니다.
단일 점수 지표를 넘어 인간 및 자동 지표를 결합한 포괄적 평가를 가능하게 합니다.
데이터 카드와 표준화된 평가 프로토콜을 통해 책임 있는 데이터 사용을 촉진합니다.
언어 및 생성 작업 전반에 걸친 다양한 고품질 데이터셋을 포함하여 앵글로센트 편향을 줄입니다.
타깃 조건에서 모델의 동작과 일반화를 시험하는 챌린지 세트를 제공합니다.

제안 방법

요약, 대화, 데이터-대-텍스트, 단순화에 걸친 18개 언어의 NLG 데이터셋 11개를 초기로 큐레이션합니다.
자원 제약 하에서 utility를 극대화하기 위한 3단계 데이터셋 선정 프로세스(제안, 기준, 투표)를 채택합니다.
데이터셋 특성, 한계 및 실제 사용 사례를 문서화한 NLG전용 데이터 카드를 작성합니다.
입력 교정, 부분 집합 분할, 시간 순서가 뒤바뀐 데이터 등 다양한 챌린지 세트 유형을 개발하여 i.i.d. 테스트 세트를 넘는 모델 동작을 진단합니다.
기준모형(T5, BART, mT5, mBART 등)과 자동 지표 확장을 위한 프레임워크를 포함한 실험 설계 초안을 제시합니다.
새로운 지표를 기존의 전통적 지표(BLEU/ROUGE) 이상으로 확장하기 위한 방향에서, 해결된 작업을 더 어려운 작업으로 교체하는 생생한 벤치마크로 GEM을 위치시킵니다.

실험 결과

연구 질문

RQ1생생하고 다국어를 다루는 벤치마크가 전통적 지표를 넘어 NLG 평가의 다면적 목표를 어떻게 더 잘 포착할 수 있는가?
RQ2데이터셋 구성, 언어, 작업 혼합이 NLG 모델의 강건성과 일반화를 최대화하는가?
RQ3챌린지 세트가 표준 테스트 세트가 놓치는 모델의 한계와 편향을 어떻게 드러내는가?
RQ4재현성과 책임 있는 사용을 보장하기 위해 필요한 데이터 문서화 및 인간 평가의 표준은 무엇인가?
RQ5자동 지표가 다양한 NLG 작업과 언어에서 인간 평가와 어떻게 상관관계가 있는가?

주요 결과

GEM은 18개 언어와 요약, 대화, 데이터-대-텍스트, 단순화와 같은 작업을 포함하는 다양하고 다국어 데이터셋 모음을 제안합니다.
데이터 카드를 통해 한계와 실제 사용 사례를 문서화하여 책임 있는 연구를 지원합니다.
챌린지 세트는 숫자 variation, 속성 순서, 오탈자, 역번역, 입력 구조 등 다양한 요소를 진단하도록 설계되었습니다.
필드가 발전함에 따라 데이터, 테스트 세트 및 지표를 업데이트할 수 있는 생생한 벤치마크 구조가 설명됩니다.
평가의 시작점을 정하기 위해 기준 모형(T5, BART, mT5, mBART) 접근 방식이 논의되며, 전통적인 n-gram 중첩(BLEU/ROUGE)을 넘어 지표를 확장하려는 계획이 제시됩니다.
이 논문은 Human 및 자동 지표를 통한 심층 평가에 집중함으로써 리더보드 최적화를 피하는 데 중점을 둡니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.