[논문 리뷰] Generated Knowledge Prompting for Commonsense Reasoning
본 논문은 Generated Knowledge Prompting (GKP)를 소개한다. 이는 질문과 함께 사용할 지식 문장을 생성하기 위해 언어 모델로부터 지식 진술을 생성하며, 작업별 감독이나 구조화된 지식 베이스 없이도 네 가지 상식 벤치마크에서 성능을 향상시킨다. GKP는 다양한 설정에서 NumerSense, CommonsenseQA 2.0, QASC에서 새로운 최첨단 성능을 달성한다.
It remains an open question whether incorporating external knowledge benefits commonsense reasoning while maintaining the flexibility of pretrained sequence models. To investigate this question, we develop generated knowledge prompting, which consists of generating knowledge from a language model, then providing the knowledge as additional input when answering a question. Our method does not require task-specific supervision for knowledge integration, or access to a structured knowledge base, yet it improves performance of large-scale, state-of-the-art models on four commonsense reasoning tasks, achieving state-of-the-art results on numerical commonsense (NumerSense), general commonsense (CommonsenseQA 2.0), and scientific commonsense (QASC) benchmarks. Generated knowledge prompting highlights large-scale language models as flexible sources of external knowledge for improving commonsense reasoning. Our code is available at https://github.com/liujch1998/GKP
연구 동기 및 목표
- 대형 사전학습 모델의 상식 추론에 외부 지식이 이점을 제공하는지 조사한다.
- 작업별 감독이나 선별된 지식 베이스에 의존하지 않는 지식 생성 접근법을 개발한다.
- 생성된 지식이 제로샷 및 미세조정 모델을 여러 벤치마크에서 향상시킬 수 있음을 보여준다.
- 추론 향상을 위한 생성 지식의 품질, 양, 그리고 통합 전략을 보여준다.
제안 방법
- 질문과 관련된 지식 문장을 언어 모델(GPT-3)을 사용한 몇-shot 프롬프팅 설정으로 생성한다.
- 질문을 조건으로 한 연속 부분을 샘플링하여 질문당 M개의 지식 문장을 생성한다.
- 각 지식 문장과 결합된 질문을 이용해 추론 모델에 프롬프팅하여 지식을 통합하고, p_I(a|q_m)를 통해 가장 높은 신뢰도의 예측을 선택한다.
- 가장 적합한 뒷받침 지식과 대응하는 답을 선택하기 위한 집계 전략을 사용한다.
- 지식 없음, 무작위/맥락 문장, 템플릿 기반 자기대화, 검색 기반 지식 등을 포함한 베이스라인과 비교한다.
- 제로샷 및 미세조정 추론 모델로 NumerSense, CommonsenseQA, CommonsenseQA 2.0, QASC 전반에 걸쳐 평가한다.
실험 결과
연구 질문
- RQ1생성된 자연어 지식 문장이 작업별 감독 없이도 상식 추론을 개선할 수 있는가?
- RQ2생성된 지식의 품질과 양이 다양한 데이터셋에서 성능에 어떤 영향을 미치는가?
- RQ3추론 시 다수의 지식 문장을 가장 잘 활용하는 통합 전략은 무엇인가?
- RQ4GKP는 템플릿 기반, 무작위, 맥락, 검색 기반 베이스라인과 어떻게 비교되는가?
주요 결과
- GKP는 NumerSense, CSQA, CSQA2, QASC 전반에서 제로샷 및 미세조정 모델의 성능을 향상시킨다.
- NumerSense에서, GKP는 이전 최상의 제로샷 방법에 비해 6%의 개선을 달성한다.
- CSQA2에서, GKP는 비검색 방식의 최첨단을 약 2% 포인트 향상시킨다.
- QASC에서, GKP는 최첨단을 약 3% 포인트 향상시킨다.
- 지식의 품질, 양, 그리고 통합 전략이 성능의 주요 동인이며, 더 많은 고품질 문장이 대략 M=20 문장 정도까지 도움이 된다.
- GKP는 많은 경우 검색 기반 방법과 대등하거나 이를 능가할 수 있으며, 더 작은 추론 모델을 크게 증폭시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.