[논문 리뷰] WinoGrande: An Adversarial Winograd Schema Challenge at Scale
WinoGrande는 Winograd 유사한 대명사 해석 문제를 44k 항목으로 확장하고 데이터 바이어스를 제거하기 위해 AfLite를 사용하며, 인간과 모델 성능 간의 상당한 차이를 보여주고 관련 벤치마크로의 전이 학습을 가능하게 한다.
The Winograd Schema Challenge (WSC) (Levesque, Davis, and Morgenstern 2011), a benchmark for commonsense reasoning, is a set of 273 expert-crafted pronoun resolution problems originally designed to be unsolvable for statistical models that rely on selectional preferences or word associations. However, recent advances in neural language models have already reached around 90% accuracy on variants of WSC. This raises an important question whether these models have truly acquired robust commonsense capabilities or whether they rely on spurious biases in the datasets that lead to an overestimation of the true capabilities of machine commonsense. To investigate this question, we introduce WinoGrande, a large-scale dataset of 44k problems, inspired by the original WSC design, but adjusted to improve both the scale and the hardness of the dataset. The key steps of the dataset construction consist of (1) a carefully designed crowdsourcing procedure, followed by (2) systematic bias reduction using a novel AfLite algorithm that generalizes human-detectable word associations to machine-detectable embedding associations. The best state-of-the-art methods on WinoGrande achieve 59.4-79.1%, which are 15-35% below human performance of 94.0%, depending on the amount of the training data allowed. Furthermore, we establish new state-of-the-art results on five related benchmarks - WSC (90.1%), DPR (93.1%), COPA (90.6%), KnowRef (85.6%), and Winogender (97.1%). These results have dual implications: on one hand, they demonstrate the effectiveness of WinoGrande when used as a resource for transfer learning. On the other hand, they raise a concern that we are likely to be overestimating the true capabilities of machine commonsense across all these benchmarks. We emphasize the importance of algorithmic bias reduction in existing and future benchmarks to mitigate such overestimation.
연구 동기 및 목표
- 대규모 모델이 실제로 상식 추론 능력을 보유하고 있는지, 아니면 데이터셋 편향에 의존하는지 조사한다.
- 현재 모델에 도전하기 위해 WSC에서 영감을 받은 크고 더 어려운 데이터셋을 만든다.
- 데이터셋 특유의 인위적 artefact를 완화하기 위한 바이어스 축소 방법(AfLite)을 개발하고 적용한다.
- WinoGrande에서의 전이 학습 능력을 다른 상식 벤치마크로 확장 평가한다.
제안 방법
- 주제 앵커에 의해 가이드되는 쌍 문장 대명사 해석 문제의 크라우드소싱 생성으로 다양성 증가.
- AfLite: RoBERTa 임베딩과 선형 분류기의 앙상블을 사용해 바이어스가 많은 사례를 제거하는 경량적 적대적 필터링 알고리즘.
- 바이어스 제거 데이터와 전체 데이터 설정의 비교를 통해 KL 발산 및 PCA 시각화를 사용하여 바이어스 효과를 평가.
- WinoGrande의 바이어스 제거 데이터 및 전체 데이터에 대해 베이스라인 및 최첨단 모델(WKH, Ensemble LMs, BERT, RoBERTa; DPR 미세 조정 여부)에 대한 비교.
- WinoGrande에 RoBERTa를 미세 조정하여 WSC, PDP, COPA, KnowRef, Winogender 등 관련 벤치마크에 대한 이득을 평가하는 전이 학습 실험들.
실험 결과
연구 질문
- RQ1수십만 개 규모의 크라우드소싱 WSC-영감을 받은 문제를 AI의 난이도를 유지하며 확장할 수 있는가, 그리고 인간의 해법 가능성을 보장하는가?
- RQ2데이터셋 특유의 바이어스가 WSC 스타일 작업에서 모델 성능을 과대평가시키는가, 그리고 AfLite가 이러한 바이어스를 완화할 수 있는가?
- RQ3WinoGrande의 바이어스 제거가 모델 성능 및 관련 벤치마크로의 전이에 어떤 영향을 미치는가?
- RQ4WinoGrande에서 학습된 모델이 다른 상식 추론 데이터셋으로 얼마나 잘 전이되는가?]
- RQ5key_findings・1-experimentation_quantitative_summaryAdded note
- RQ6key_findings":["Debiased WinoGrande 테스트 세트에서 RoBERTa의 최고 성능은 79.1%(dev 79.3%)이다.","Debiased WinoGrande에서 인간의 성능은 94.0%를 넘으며 모델 점수보다 훨씬 높다.","AfLite 바이어스 제거가 레이블 분포 간의 KL 발산을 크게 감소시켜 데이터셋 특유의 바이어스가 감소했음을 나타낸다.","WinoGrande에 미세 조정된 RoBERTa가 WSC, DPR, COPA, KnowRef, Winogender의 최첨단 결과를 개선한다.","WinoGrande는 전이 학습을 가능하게 하며 RoBERTa-WinoGrande가 WSC 관련 작업에서 90.1%, DPR에서 93.1%, COPA에서 90.6%, KnowRef에서 85.6%, Winogender에서 97.1%(각 벤치마크의 기준선 대비) 성과를 달성한다.","결과는 기존 벤치마크에 내재된 상당한 바이어스와 정확한 상식 능력을 더 잘 측정하기 위한 알고리즘적 바이어스 감소의 필요성을 시사한다."]
- RQ7table_headers translations:
- RQ8table_rows translations:
- RQ9table_headers:["Model", "Dev Acc %", "Test Acc %"]
- RQ10table_rows:[["WKH", "49.4", "49.6"], ["Ensemble LMs", "53.0", "50.9"], ["BERT", "65.8", "64.9"], ["RoBERTa", "79.3", "79.1"], ["BERT (local context)", "52.5", "51.9"], ["RoBERTa (local context)", "52.1", "50.0"], ["BERT-DPR ⋆", "50.2", "51.0"], ["RoBERTa-DPR ⋆", "59.4", "58.9"], ["Human Perf.", "94.1", "94.0"]]}
- RQ11title:
- RQ12Meta description
- RQ13table_headers:
- RQ14Main results table (Dev/Test accuracy on WinoGrande-debiased)
- RQ15table_rows:
- RQ16["RoBERTa","79.3","79.1"],["BERT","65.8","64.9"],["Ensemble LMs","53.0","50.9"],["WKH","49.4","49.6"],["RoBERTa (local context)","52.1","50.0"],["BERT (local context)","52.5","51.9"],["BERT-DPR ⋆","50.2","51.0"],["RoBERTa-DPR ⋆","59.4","58.9"],["Human Perf.","94.1","94.0"]
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.