QUICK REVIEW

[논문 리뷰] HellaSwag: Can a Machine Really Finish Your Sentence?

Rowan Zellers, Ari Holtzman|arXiv (Cornell University)|2019. 05. 19.

Topic Modeling참고 문헌 16인용 수 42

한 줄 요약

HellaSwag는 어려운 적대적 필터링(Adversarially filtered) 상식 NLI 데이터셋을 제시하여 인간이 BERT와 같은 최첨단 모델보다 훨씬 더 정확하다는 것을 보여주며, 광범위한 사전학습과 미세조정 후에도 차이가 큼.

ABSTRACT

Recent work by Zellers et al. (2018) introduced a new task of commonsense natural language inference: given an event description such as "A woman sits at a piano," a machine must select the most likely followup: "She sets her fingers on the keys." With the introduction of BERT, near human-level performance was reached. Does this mean that machines can perform human level commonsense inference? In this paper, we show that commonsense inference still proves difficult for even state-of-the-art models, by presenting HellaSwag, a new challenge dataset. Though its questions are trivial for humans (>95% accuracy), state-of-the-art models struggle (<48%). We achieve this via Adversarial Filtering (AF), a data collection paradigm wherein a series of discriminators iteratively select an adversarial set of machine-generated wrong answers. AF proves to be surprisingly robust. The key insight is to scale up the length and complexity of the dataset examples towards a critical 'Goldilocks' zone wherein generated text is ridiculous to humans, yet often misclassified by state-of-the-art models. Our construction of HellaSwag, and its resulting difficulty, sheds light on the inner workings of deep pretrained models. More broadly, it suggests a new path forward for NLP research, in which benchmarks co-evolve with the evolving state-of-the-art in an adversarial way, so as to present ever-harder challenges.

연구 동기 및 목표

기존 벤치마크를 넘어선 견고한 상식 추론 평가에 대한 필요성을 제기한다.
사전학습과 미세조정이 인간과 같은 성능을 달성하는 데 한계가 있음을 드러낸다.
적대적으로 선별된 더 어려운 음성 샘플을 생성하기 위해 Adversarial Filtering을 도입한다.
추론 수요의 다양성을 높이기 위해 SWAG를 WikiHow 및 ActivityNet 맥락으로 확장한다.
모델에는 어렵고 인간에게는 쉬운 '골디락스 존'인 생성 엔딩을 시연한다.

제안 방법

적대적으로 생성된 음성 엔딩을 반복적으로 선별하기 위해 Adversarial Filtering을 사용한다.
최신 생성기와 판별기를 결합해 어려운 부정적 샘플을 생성한다.
SWAG를 WikiHow 및 ActivityNet 맥락으로 확장해 시나리오의 길이와 다양성을 늘린다.
도메인 내 일반화와 제로샷 일반화를 모두 평가하고 교차 도메인 전달 분석을 포함한다.
네 가지 소프트맥스 설정에서 여러 베이스라인(BERT, GPT, ESIM+ELMo, LSTM, FastText)을 비교한다.

실험 결과

연구 질문

RQ1현재의 심층 프리트레이닝 모델이 더 도전적이고 적대적으로 구성된 데이터에서 견고하고 인간 수준의 상식 추론을 달성할 수 있는가?
RQ2맥락 길이, 언어 구조, 도메인 다양성이 상식 NLI에서 모델 성능에 어떤 영향을 미치는가?
RQ3SWAG에서 학습된 모델이 HellaSwag로 전이되는가, 그리고 그 반대도 마찬가지인지, 일반 상식 추론에 대해 무엇을 말하는가?
RQ4적대적으로 구성된 상식 과제를 해결하는 데 있어 사전학습 규모와 미세조정의 역할은 무엇인가?
RQ5제로샷 범주 일반화와 도메인 시프트가 HellaSwag의 모델 정확도에 어떤 영향을 미치는가?

주요 결과

모델	전체	검증	테스트	도메인 내 검증	도메인 내 테스트	제로샷 검증	제로샷 테스트	ActivityNet 검증	ActivityNet 테스트	WikiHow 검증
OpenAI GPT	41.9	41.7	45.3	44.0	38.6	39.3	46.4	43.8	39.8	40.5
BERT-Base	39.5	40.5	42.9	42.8	36.1	38.3	48.9	45.7	34.9	37.7
ESIM+ELMo	33.6	33.3	35.7	34.2	31.5	32.3	37.7	36.6	31.6	31.5
LSTM+GloVe	31.9	31.7	34.3	32.9	29.5	30.4	34.3	33.8	30.7	30.5
BERT-Large	46.7	47.3	50.2	49.7	43.3	45.0	54.7	51.7	42.9	45.0
Human	95.7	95.6	95.6	95.6	95.8	95.7	94.0	94.0	96.5	96.5

사람은 HellaSwag에서 약 95% 정확도를 달성하는 반면, 강력한 모델은 상당한 학습 데이터를 가지고도 50% 미만에 머문다.
BERT-Large가 모델 중 최상으로 (~47.3% 전체) 보이지만 인간 성능과는 여전히 멀고 제로샷 카테고리에 어려움을 겪는다.
Adversarial Filtering(AF)은 많은 모델을 속이는 엔딩을 생성하지만 맥락 길이의 골디락스 존에서 인간에게는 종종 비의미적이다.
SWAG로 학습된 모델을 HellaSwag로 이전하면 이득이 제한적이며(SWAG 학습 모델이 HellaSwag 검증에서 약 34.6% 점수), 반대로 HellaSwag 학습 모델은 SWAG로의 전이에서 좋지 않다(도메인 누락 LSMDC 작업에서 약 69% 정확도).
WikiHow는 일반적으로 기계에 더 어렵고 ActivityNet은 차이가 더 크지만 기계 성능은 절대적으로 낮다. 인간은 WikiHow에서 약 93% 정확도에 도달하는 반면 Bert-Large은 약 45% 내외; ActivityNet은 인간-모델 간 격차가 크지만 기계 성능은 상대적으로 낮다.
본 연구는 모델 발전에 맞춰 벤치마크를 함께 발전시켜야 함과 인간 수준의 상식 추론에 다가가려면 필요한 계산 자원의 병목 가능성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.