[논문 리뷰] A Simple Method for Commonsense Reasoning
저자는 다양한 비라벨 대규모 코퍼스에서 학습된 비지도 대규모 언어 모델이 후보 치환 점수를 매김으로 Winograd Schema 도전과 Pronoun Disambiguation 문제를 해결할 수 있으며, 손으로 설계된 특징이나 주석된 지식 베이스 없이도 최첨단 정확도를 달성한다.
Commonsense reasoning is a long-standing challenge for deep learning. For example, it is difficult to use neural networks to tackle the Winograd Schema dataset (Levesque et al., 2011). In this paper, we present a simple method for commonsense reasoning with neural networks, using unsupervised learning. Key to our method is the use of language models, trained on a massive amount of unlabled data, to score multiple choice questions posed by commonsense reasoning tests. On both Pronoun Disambiguation and Winograd Schema challenges, our models outperform previous state-of-the-art methods by a large margin, without using expensive annotated knowledge bases or hand-engineered features. We train an array of large RNN language models that operate at word or character level on LM-1-Billion, CommonCrawl, SQuAD, Gutenberg Books, and a customized corpus for this task and show that diversity of training data plays an important role in test performance. Further analysis also shows that our system successfully discovers important features of the context that decide the correct answer, indicating a good grasp of commonsense knowledge.
연구 동기 및 목표
- 상식 추론을 표기된 데이터가 희소한 저감신호 문제로서 동기를 부여한다.
- Winograd Schema 및 PDP 작업에서 후보 치환을 점수 매기기 위한 언어 모델의 간단한 방법을 제안한다.
- 다양한 코퍼스에서 학습된 앙상블 모델이 이전의 최첨단 접근법보다 우수하다는 것을 보여준다.
- 점수 매김 전략과 학습 데이터 다양성이 추론 벤치마크의 성능에 미치는 영향을 분석한다.
제안 방법
- 문장에서 대명사를 각 후보 참조로 치환하고 그 결과 문장을 언어 모델로 점수를 매긴다.
- 전체 문장 확률(Score_full)과 치환에 따른 꼬리의 조건부 확률(Score_partial)을 비교한다.
- 대형 비라벨 코퍼라( LM-1-Billion, CommonCrawl, SQuAD, Gutenberg, STORIES )에서 단어- 및 문자 기반 LM을 학습하고 그 출력값을 앙상블한다.
- 주석된 지식 베이스 없이 추론 능력을 측정하기 위해 PDP-60 및 WSC-273에서 평가한다.
- Winograd Schema 작업의 성능 향상을 위해 CommonCrawl에서 파생된 STORIES 코퍼스를 맞춤형으로 탐색한다.
- 의사결정에 중요한 단어를 식별하기 위해 토큰 단위 확률 비를 확인하여 키워드와 같은 특징을 분석한다.
실험 결과
연구 질문
- RQ1비지도 언어 모델이 충분한 상식 추론을 학습하여 Winograd Schema 및 대명사 해석 작업을 해결할 수 있는가?
- RQ2점수 매김 방법(전체 vs 부분)이 추론 성능에 영향을 주며 학습 데이터 다양성이 결과에 어떻게 영향을 미치는가?
- RQ3말뭉치 선택이 상식 과제의 LM 성능에 미치는 영향은 무엇이며 이야기(스토리) 기반 코퍼스가 추가 이점을 제공하는가?
- RQ4다양한 코퍼라에서 학습된 다 LM의 앙상블이 단일 모델이나 지식 베이스를 사용하는 모델보다 우수한가?
- RQ5모델이 Winograd Schema 의사결정을 이끄는 키워드나 특별한 단어를 식별할 수 있는가?
주요 결과
- 단일 모델 LM은 PDP-60에서 전체 점수로 이전 방법보다 우수하며 Word-LM-full은 60.0% 정확도를 달성한다.
- 비지도 LM의 앙상블은 이전의 PDP-60 최상 결과(66.7%)를 능가하며 70.0% 정확도를 기록한다.
- WSC-273에서 Word-LM-full은 53.8% 정확도에 도달하고 Word-LM-partial은 56.4%에 도달한다.
- 다양한 코퍼라에서 학습된 10개의 LM 앙상블은 WSC-273에서 61.5% 정확도, STORIES를 포함한 확장 앙상블로 63.7%까지 향상된다.
- 부분 점수 매김은 WSC-273 및 PDP 데이터셋에서 항상 전체 점수 매김보다 우수하며 Score_full의 정규화는 PDP-122에서 도움이 된다.
- STORIES 코퍼스에서의 학습은 강력한 단일 모델 성능(62.6%)을 보이며, 앙상블에 STORY 기반 모델을 추가하면 최종 WSC-273 정확도가 63.7%로 향상된다.
- 학습 데이터의 다양성은 이점이 있으며 다양한 코퍼스로 학습된 앙상블이 단일 코퍼스로 학습된 앙상블보다 성능이 좋다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.