[논문 리뷰] HellaSwag: Can a Machine Really Finish Your Sentence?
HellaSwag는 어려운 적대적 필터링(Adversarially filtered) 상식 NLI 데이터셋을 제시하여 인간이 BERT와 같은 최첨단 모델보다 훨씬 더 정확하다는 것을 보여주며, 광범위한 사전학습과 미세조정 후에도 차이가 큼.
Recent work by Zellers et al. (2018) introduced a new task of commonsense natural language inference: given an event description such as "A woman sits at a piano," a machine must select the most likely followup: "She sets her fingers on the keys." With the introduction of BERT, near human-level performance was reached. Does this mean that machines can perform human level commonsense inference? In this paper, we show that commonsense inference still proves difficult for even state-of-the-art models, by presenting HellaSwag, a new challenge dataset. Though its questions are trivial for humans (>95% accuracy), state-of-the-art models struggle (<48%). We achieve this via Adversarial Filtering (AF), a data collection paradigm wherein a series of discriminators iteratively select an adversarial set of machine-generated wrong answers. AF proves to be surprisingly robust. The key insight is to scale up the length and complexity of the dataset examples towards a critical 'Goldilocks' zone wherein generated text is ridiculous to humans, yet often misclassified by state-of-the-art models. Our construction of HellaSwag, and its resulting difficulty, sheds light on the inner workings of deep pretrained models. More broadly, it suggests a new path forward for NLP research, in which benchmarks co-evolve with the evolving state-of-the-art in an adversarial way, so as to present ever-harder challenges.
연구 동기 및 목표
- 기존 벤치마크를 넘어선 견고한 상식 추론 평가에 대한 필요성을 제기한다.
- 사전학습과 미세조정이 인간과 같은 성능을 달성하는 데 한계가 있음을 드러낸다.
- 적대적으로 선별된 더 어려운 음성 샘플을 생성하기 위해 Adversarial Filtering을 도입한다.
- 추론 수요의 다양성을 높이기 위해 SWAG를 WikiHow 및 ActivityNet 맥락으로 확장한다.
- 모델에는 어렵고 인간에게는 쉬운 '골디락스 존'인 생성 엔딩을 시연한다.
제안 방법
- 적대적으로 생성된 음성 엔딩을 반복적으로 선별하기 위해 Adversarial Filtering을 사용한다.
- 최신 생성기와 판별기를 결합해 어려운 부정적 샘플을 생성한다.
- SWAG를 WikiHow 및 ActivityNet 맥락으로 확장해 시나리오의 길이와 다양성을 늘린다.
- 도메인 내 일반화와 제로샷 일반화를 모두 평가하고 교차 도메인 전달 분석을 포함한다.
- 네 가지 소프트맥스 설정에서 여러 베이스라인(BERT, GPT, ESIM+ELMo, LSTM, FastText)을 비교한다.
실험 결과
연구 질문
- RQ1현재의 심층 프리트레이닝 모델이 더 도전적이고 적대적으로 구성된 데이터에서 견고하고 인간 수준의 상식 추론을 달성할 수 있는가?
- RQ2맥락 길이, 언어 구조, 도메인 다양성이 상식 NLI에서 모델 성능에 어떤 영향을 미치는가?
- RQ3SWAG에서 학습된 모델이 HellaSwag로 전이되는가, 그리고 그 반대도 마찬가지인지, 일반 상식 추론에 대해 무엇을 말하는가?
- RQ4적대적으로 구성된 상식 과제를 해결하는 데 있어 사전학습 규모와 미세조정의 역할은 무엇인가?
- RQ5제로샷 범주 일반화와 도메인 시프트가 HellaSwag의 모델 정확도에 어떤 영향을 미치는가?
주요 결과
| 모델 | 전체 | 검증 | 테스트 | 도메인 내 검증 | 도메인 내 테스트 | 제로샷 검증 | 제로샷 테스트 | ActivityNet 검증 | ActivityNet 테스트 | WikiHow 검증 | WikiHow 테스트 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| OpenAI GPT | 41.9 | 41.7 | 45.3 | 44.0 | 38.6 | 39.3 | 46.4 | 43.8 | 39.8 | 40.5 | |
| BERT-Base | 39.5 | 40.5 | 42.9 | 42.8 | 36.1 | 38.3 | 48.9 | 45.7 | 34.9 | 37.7 | |
| ESIM+ELMo | 33.6 | 33.3 | 35.7 | 34.2 | 31.5 | 32.3 | 37.7 | 36.6 | 31.6 | 31.5 | |
| LSTM+GloVe | 31.9 | 31.7 | 34.3 | 32.9 | 29.5 | 30.4 | 34.3 | 33.8 | 30.7 | 30.5 | |
| BERT-Large | 46.7 | 47.3 | 50.2 | 49.7 | 43.3 | 45.0 | 54.7 | 51.7 | 42.9 | 45.0 | |
| Human | 95.7 | 95.6 | 95.6 | 95.6 | 95.8 | 95.7 | 94.0 | 94.0 | 96.5 | 96.5 |
- 사람은 HellaSwag에서 약 95% 정확도를 달성하는 반면, 강력한 모델은 상당한 학습 데이터를 가지고도 50% 미만에 머문다.
- BERT-Large가 모델 중 최상으로 (~47.3% 전체) 보이지만 인간 성능과는 여전히 멀고 제로샷 카테고리에 어려움을 겪는다.
- Adversarial Filtering(AF)은 많은 모델을 속이는 엔딩을 생성하지만 맥락 길이의 골디락스 존에서 인간에게는 종종 비의미적이다.
- SWAG로 학습된 모델을 HellaSwag로 이전하면 이득이 제한적이며(SWAG 학습 모델이 HellaSwag 검증에서 약 34.6% 점수), 반대로 HellaSwag 학습 모델은 SWAG로의 전이에서 좋지 않다(도메인 누락 LSMDC 작업에서 약 69% 정확도).
- WikiHow는 일반적으로 기계에 더 어렵고 ActivityNet은 차이가 더 크지만 기계 성능은 절대적으로 낮다. 인간은 WikiHow에서 약 93% 정확도에 도달하는 반면 Bert-Large은 약 45% 내외; ActivityNet은 인간-모델 간 격차가 크지만 기계 성능은 상대적으로 낮다.
- 본 연구는 모델 발전에 맞춰 벤치마크를 함께 발전시켜야 함과 인간 수준의 상식 추론에 다가가려면 필요한 계산 자원의 병목 가능성을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.