Skip to main content
QUICK REVIEW

[논문 리뷰] HellaSwag: Can a Machine Really Finish Your Sentence?

Rowan Zellers, Ari Holtzman|arXiv (Cornell University)|2019. 05. 19.
Topic Modeling참고 문헌 16인용 수 42
한 줄 요약

HellaSwag는 어려운 적대적 필터링(Adversarially filtered) 상식 NLI 데이터셋을 제시하여 인간이 BERT와 같은 최첨단 모델보다 훨씬 더 정확하다는 것을 보여주며, 광범위한 사전학습과 미세조정 후에도 차이가 큼.

ABSTRACT

Recent work by Zellers et al. (2018) introduced a new task of commonsense natural language inference: given an event description such as "A woman sits at a piano," a machine must select the most likely followup: "She sets her fingers on the keys." With the introduction of BERT, near human-level performance was reached. Does this mean that machines can perform human level commonsense inference? In this paper, we show that commonsense inference still proves difficult for even state-of-the-art models, by presenting HellaSwag, a new challenge dataset. Though its questions are trivial for humans (>95% accuracy), state-of-the-art models struggle (<48%). We achieve this via Adversarial Filtering (AF), a data collection paradigm wherein a series of discriminators iteratively select an adversarial set of machine-generated wrong answers. AF proves to be surprisingly robust. The key insight is to scale up the length and complexity of the dataset examples towards a critical 'Goldilocks' zone wherein generated text is ridiculous to humans, yet often misclassified by state-of-the-art models. Our construction of HellaSwag, and its resulting difficulty, sheds light on the inner workings of deep pretrained models. More broadly, it suggests a new path forward for NLP research, in which benchmarks co-evolve with the evolving state-of-the-art in an adversarial way, so as to present ever-harder challenges.

연구 동기 및 목표

  • 기존 벤치마크를 넘어선 견고한 상식 추론 평가에 대한 필요성을 제기한다.
  • 사전학습과 미세조정이 인간과 같은 성능을 달성하는 데 한계가 있음을 드러낸다.
  • 적대적으로 선별된 더 어려운 음성 샘플을 생성하기 위해 Adversarial Filtering을 도입한다.
  • 추론 수요의 다양성을 높이기 위해 SWAG를 WikiHow 및 ActivityNet 맥락으로 확장한다.
  • 모델에는 어렵고 인간에게는 쉬운 '골디락스 존'인 생성 엔딩을 시연한다.

제안 방법

  • 적대적으로 생성된 음성 엔딩을 반복적으로 선별하기 위해 Adversarial Filtering을 사용한다.
  • 최신 생성기와 판별기를 결합해 어려운 부정적 샘플을 생성한다.
  • SWAG를 WikiHow 및 ActivityNet 맥락으로 확장해 시나리오의 길이와 다양성을 늘린다.
  • 도메인 내 일반화와 제로샷 일반화를 모두 평가하고 교차 도메인 전달 분석을 포함한다.
  • 네 가지 소프트맥스 설정에서 여러 베이스라인(BERT, GPT, ESIM+ELMo, LSTM, FastText)을 비교한다.

실험 결과

연구 질문

  • RQ1현재의 심층 프리트레이닝 모델이 더 도전적이고 적대적으로 구성된 데이터에서 견고하고 인간 수준의 상식 추론을 달성할 수 있는가?
  • RQ2맥락 길이, 언어 구조, 도메인 다양성이 상식 NLI에서 모델 성능에 어떤 영향을 미치는가?
  • RQ3SWAG에서 학습된 모델이 HellaSwag로 전이되는가, 그리고 그 반대도 마찬가지인지, 일반 상식 추론에 대해 무엇을 말하는가?
  • RQ4적대적으로 구성된 상식 과제를 해결하는 데 있어 사전학습 규모와 미세조정의 역할은 무엇인가?
  • RQ5제로샷 범주 일반화와 도메인 시프트가 HellaSwag의 모델 정확도에 어떤 영향을 미치는가?

주요 결과

모델전체검증테스트도메인 내 검증도메인 내 테스트제로샷 검증제로샷 테스트ActivityNet 검증ActivityNet 테스트WikiHow 검증WikiHow 테스트
OpenAI GPT41.941.745.344.038.639.346.443.839.840.5
BERT-Base39.540.542.942.836.138.348.945.734.937.7
ESIM+ELMo33.633.335.734.231.532.337.736.631.631.5
LSTM+GloVe31.931.734.332.929.530.434.333.830.730.5
BERT-Large46.747.350.249.743.345.054.751.742.945.0
Human95.795.695.695.695.895.794.094.096.596.5
  • 사람은 HellaSwag에서 약 95% 정확도를 달성하는 반면, 강력한 모델은 상당한 학습 데이터를 가지고도 50% 미만에 머문다.
  • BERT-Large가 모델 중 최상으로 (~47.3% 전체) 보이지만 인간 성능과는 여전히 멀고 제로샷 카테고리에 어려움을 겪는다.
  • Adversarial Filtering(AF)은 많은 모델을 속이는 엔딩을 생성하지만 맥락 길이의 골디락스 존에서 인간에게는 종종 비의미적이다.
  • SWAG로 학습된 모델을 HellaSwag로 이전하면 이득이 제한적이며(SWAG 학습 모델이 HellaSwag 검증에서 약 34.6% 점수), 반대로 HellaSwag 학습 모델은 SWAG로의 전이에서 좋지 않다(도메인 누락 LSMDC 작업에서 약 69% 정확도).
  • WikiHow는 일반적으로 기계에 더 어렵고 ActivityNet은 차이가 더 크지만 기계 성능은 절대적으로 낮다. 인간은 WikiHow에서 약 93% 정확도에 도달하는 반면 Bert-Large은 약 45% 내외; ActivityNet은 인간-모델 간 격차가 크지만 기계 성능은 상대적으로 낮다.
  • 본 연구는 모델 발전에 맞춰 벤치마크를 함께 발전시켜야 함과 인간 수준의 상식 추론에 다가가려면 필요한 계산 자원의 병목 가능성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.