[논문 리뷰] FOLIO: Natural Language Reasoning with First-Order Logic
FOLIO은 명시적 1차 논리 주석이 달린 인간 주석의 오픈 도메인 데이터셋으로 자연어 추론을 다루며, 진정으로 연역적인 추론 및 NL-FOL 번역에 대해 언어 모델을 벤치마크한다.
Large language models (LLMs) have achieved remarkable performance on a variety of natural language understanding tasks. However, existing benchmarks are inadequate in measuring the complex logical reasoning capabilities of a model. We present FOLIO, a human-annotated, logically complex and diverse dataset for reasoning in natural language (NL), equipped with first-order logic (FOL) annotations. FOLIO consists of 1,430 examples (unique conclusions), each paired with one of 487 sets of premises used to deductively reason for the validity of each conclusion. The logical correctness of the premises and conclusions is ensured by their FOL annotations, which are automatically verified by an FOL inference engine. In addition to the main NL reasoning task, NL-FOL pairs in FOLIO constitute a new NL-FOL translation dataset. Our experiments on FOLIO systematically evaluate the FOL reasoning ability of supervised fine-tuning on medium-sized language models. For both NL reasoning and NL-FOL translation, we benchmark multiple state-of-the-art language models. Our results show that a subset of FOLIO presents a challenge for one of the most capable {Large Language Model (LLM)} publicly available, GPT-4.
연구 동기 및 목표
- 대규모의 전문 작성 NL 추론 데이터셋을 평행 1차 논리(FOL) 수식으로 주석 작성한다.
- 전제와 결론의 논리적 타당성을 FOL 추론 엔진으로 보장한다.
- NL- FOL 번역 작업 및 NL 스토리를 FOL로 번역하는 평가 지표를 제공한다.
- NL 추론 및 NL-FOL 번역에서 중간 규모의 모델과 대형 LLM을 벤치마크한다.
- 향후 LMs의 일차 논리 추론 평가를 가능하게 하는 데이터셋과 코드를 제공한다.
제안 방법
- 실세계 지식과 전문 작성을 가진 487개의 전제 세트에서 1,435개의 결론을 수집하고 주석 달기.
- 전제와 결론에 대한 병렬 FOL 수식을 주석 달고, 커스텀 FOL 추론 엔진으로 검증한다.
- NL_STORY를 NL-FOL 번역 작업을 통해 FOL에 정렬하고 구문, AST, 술어, 실행에 대한 평가 지표를 정의한다.
- NL 추론에 대해 감독 학습 미세 조정(BERT/RoBERTa)과 소수 샷 프롬pt(GPT-3, Codex, OPT, GPT-NeoX)을 이용한 평가를 수행한다.
- 구문적 타당성, 구문적 일치, AST 일치, 술어 퍼지 매치, 실행 정확도를 사용해 NL-FOL 번역을 평가한다.
실험 결과
연구 질문
- RQ1현실어에 기초한 자연어를 다루는 현재 LMs에서 일차 논리 추론은 얼마나 어려운가?
- RQ2표준 미세 조정 및 소수 샷 프롬프트가 FOL 추론하에 NL 전제에서 결론을 유도하는 데 얼마나 도움이 되는가?
- RQ3대형 언어 모델은 NL 추론 이야기를 올바른 FOL 표현으로 얼마나 잘 번역하는가?
- RQ4FOL 추론에서 거짓 또는 미지의 결론을 다루는 데 LLM의 한계는 무엇인가?
- RQ5NL-FOL 번역은 NL과 형식적 논리 표현의 정렬에 대해 어떤 통찰을 제공하는가?
주요 결과
| 모델 | 모델 크기 | 정확도 (%) |
|---|---|---|
| BERT-base | 110M | 56.83 |
| BERT-large | 340M | 59.03 |
| RoBERTa-base | 110M | 56.83 |
| RoBERTa-large | 340M | 62.11 |
- RoBERTa-large은 NL 추론에서 전체 감독 하에 62.11%의 정확도를 달성하며, BERT 계열보다 높다.
- GPT-3 또는 Codex를 이용한 소수 샷 프롬프트는 제한된 이득을 보이며, NL 추론 케이스에서 GPT-3 davinci는 51.10%, Codex davinci는 56.04%를 달성한다.
- GPT-3 davinci는 NL 추론에서 최상위 공개 버전에 대해 43.44%를 달성하는 반면, Codex davinci는 소수 샷 프롬프트에서 56.04%에 도달한다.
- NL-FOL 번역 지표는 구문적 타당성이 약 90% 정도로 나타나지만, 정확 일치 및 AST 정렬은 낮아 번역 품질이 순수 NL 추론 성능보다 뒤처진다는 것을 시사한다.
- 모델은 True 결론에서 특히 더 좋은 성능을 보이며, False/Unknown의 경우 RoBERTa에서 약 54.41%, 8-shot 프롬프트의 경우 36.91%를 달성한다.
- 더 긴 추론 체인(5–8 전제)은 최신 LMs에게 짧은 경우보다 더 큰 도전을 제시한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.