[논문 리뷰] CommonGen: A Constrained Text Generation Dataset Towards Generative Commonsense Reasoning
이 논문은 35,000개의 고유한 개념 조합을 바탕으로 한 79,000개의 공통 지식 기반 서술문을 포함하는 제약 조건이 있는 텍스트 생성 작업과 데이터셋인 CommonGen을 소개한다. 이는 생성적 공통 지식 추론을 평가하기 위해 고안되었으며, 새로운 개념 조합에 대한 관계적 추론과 조합 일반화 능력을 모델링할 것을 요구한다. 이 작업은 T5와 같은 최첨단 모델과 인간 성능 사이에 큰 성능 격차를 드러내며, CommonsenseQA와 같은 후행 작업으로의 전이 가능성도 입증한다.
Recently, large-scale pre-trained language models have demonstrated impressive performance on several commonsense-reasoning benchmark datasets. However, building machines with commonsense to compose realistically plausible sentences remains challenging. In this paper, we present constrained text generation task, CommonGen associated with benchmark dataset, to explicitly test machines for the ability of generative commonsense reasoning. Given set of common concepts (e.g., {dog, frisbee, catch, throw}); the task is to generate coherent sentence describing an everyday scenario using these concepts (e.g., a man throws frisbee and his dog catches it). The CommonGen task is challenging because it inherently requires 1) relational reasoning with background commonsense knowledge, and 2) compositional generalization ability to work on unseen concept combinations. Our dataset, constructed through combination of crowdsourced and existing caption corpora, consists of 79k commonsense descriptions over 35k unique concept-sets. Experiments show that there is large gap between state-of-the-art text generation models (e.g., T5) and human performance. Furthermore, we demonstrate that the learned generative commonsense reasoning capability can be transferred to improve downstream tasks such as CommonsenseQA by generating additional context.
연구 동기 및 목표
- 주어진 개념 집합을 사용하여 현실적이고 공통 지식에 부합하는 문장을 생성할 수 있도록 모델을 훈련시키는 데 도전하는 것.
- 모델이 새로운 개념 조합에 대해 관계적 추론과 조합 일반화 능력을 수행할 수 있는 능력을 평가하는 것.
- 생성적 공통 지식 추론에서 인간 수준과 모델 수준의 성능 격차를 줄이는 것.
- 생성적 공통 지식 추론의 체계적 평가 및 향상을 지원하는 벤치마크 데이터셋을 만드는 것.
제안 방법
- CommonGen 작업은 주어진 일반 개념 집합(예: {개, 플라이스비, 잡기, 던지기})을 사용하여 일상적인 상황을 묘사하는 단일이고 통일된 문장을 생성하는 것으로 정의된다.
- 데이터셋은 커뮤니티 기반의 애너테이션과 기존의 이미지 캡션 코퍼스를 조합하여 공통 지식 서술의 다양성과 현실성을 확보한다.
- 모델는 배경 공통 지식 통합이 필요하며, 입력 개념 집합에 조건화된 유창하고 맥락에 적절한 문장을 생성하도록 훈련된다.
- 평가에서는 자동 평가 지표와 인간 평가를 사용하여 모델 출력을 인간이 작성한 기준과 비교한다.
- 전이 학습을 위해 생성된 문장을 추가 맥락으로 사용하여 CommonsenseQA에서의 성능 향상을 도모한다.
- T5와 같은 최첨단 순서-순서 모델은 그들의 생성적 공통 지식 추론 능력을 평가하기 위해 CommonGen 데이터셋에서 미세 조정된다.
실험 결과
연구 질문
- RQ1T5와 같은 기존 텍스트 생성 모델이 다양한 주어진 개념을 포함하면서도 공통 지식 관계를 존중하는 유창하고 타당한 문장을 생성할 수 있는가?
- RQ2CommonGen 데이터셋은 현재 모델이 새로운 개념 조합에 대해 조합 일반화 능력에서 겪는 한계를 어느 정도 드러내는가?
- RQ3CommonGen에서 학습된 생성적 공통 지식 추론 능력은 CommonsenseQA와 같은 후행 작업에서 성능 향상에 효과적으로 전이될 수 있는가?
- RQ4다양한 유형의 개념 조합과 문장 구조에 따라 최첨단 모델과 인간 애너테이터 간의 성능 격차는 어떻게 변화하는가?
주요 결과
- T5와 같은 최첨단 텍스트 생성 모델과 인간 성능 사이에 CommonGen 작업에서 큰 성능 격차가 존재하여, 생성적 공통 지식 추론 분야에서 향상 여지가 크다는 것을 시사한다.
- CommonGen 데이터셋은 새로운 개념 조합에 대한 모델의 어려움을 통해 관계적 추론과 조합 일반화의 복잡성을 효과적으로 포착하고 있음을 입증한다.
- CommonGen 데이터셋에서의 미세 조정은 CommonsenseQA와 같은 후행 작업에서 측정 가능한 성능 향상을 이끌어내며, 학습된 공통 지식 추론의 전이 가능성은 입증된다.
- 인간 평가 결과, 복잡하거나 명백하지 않은 개념 조합에서는 모델이 생성한 문장이 인간이 작성한 기준보다 더 유창하고 타당성이 떨어지는 것으로 확인되었다.
- 공동 작업을 통해 수집한 데이터셋과 기존 캡션 코퍼스를 조합하여 고도로 품질이 높고 다양한 현실적인 공통 지식 서술문을 확보하였으며, 일상적인 상황을 반영하고 있다.
- 작업 설계는 생성적 공통 지식 추론을 효과적으로 분리하고 측정할 수 있도록 하여, 향후 모델 개발을 위한 적합한 벤치마크로 기능한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.