[论文解读] FOLIO: Natural Language Reasoning with First-Order Logic
FOLIO 提供了一个人工标注的、面向开放领域的自然语言推理数据集,具有显式的一阶逻辑注释,并对真正的演绎推理和 NL-FOL 转换进行基线评测。
Large language models (LLMs) have achieved remarkable performance on a variety of natural language understanding tasks. However, existing benchmarks are inadequate in measuring the complex logical reasoning capabilities of a model. We present FOLIO, a human-annotated, logically complex and diverse dataset for reasoning in natural language (NL), equipped with first-order logic (FOL) annotations. FOLIO consists of 1,430 examples (unique conclusions), each paired with one of 487 sets of premises used to deductively reason for the validity of each conclusion. The logical correctness of the premises and conclusions is ensured by their FOL annotations, which are automatically verified by an FOL inference engine. In addition to the main NL reasoning task, NL-FOL pairs in FOLIO constitute a new NL-FOL translation dataset. Our experiments on FOLIO systematically evaluate the FOL reasoning ability of supervised fine-tuning on medium-sized language models. For both NL reasoning and NL-FOL translation, we benchmark multiple state-of-the-art language models. Our results show that a subset of FOLIO presents a challenge for one of the most capable {Large Language Model (LLM)} publicly available, GPT-4.
研究动机与目标
- 创建一个大型、由专家撰写、带有并行一阶逻辑(FOL)公式注释的 NL 推理数据集。
- 通过 FOL 推理引擎确保前提与结论的逻辑有效性。
- 提供 NL-FOL 转换任务及评估度量,用于将 NL 故事翻译为 FOL。
- 在中等规模模型和大规模语言模型上评估 NL 推理和 NL-FOL 转换的基线。
- 提供数据集和代码,以便未来评估语言模型在一阶逻辑推理方面的能力。
提出的方法
- 收集并注释 1,435 个结论,覆盖 487 个带有现实世界知识和专家撰写的前提集。
- 为前提和结论标注并行的 FOL 公式,并用自定义 FOL 推理引擎进行验证。
- 通过 NL-FOL 转换任务将 NL 故事与 FOL 对齐,并为语法、AST、谓词及执行定义评估指标。
- 使用监督微调(BERT/RoBERTa)和少量提示(GPT-3、Codex、OPT、GPT-NeoX)对 NL 推理进行评估。
- 使用语法有效性、精确匹配、AST 匹配、谓词模糊匹配和执行准确性等指标评估 NL-FOL 转换。
实验结果
研究问题
- RQ1当前的 LMs 在以自然语言为依据的一阶逻辑推理方面有多难?
- RQ2标准微调和少量提示在多大程度上能在 FOL 推理下,从 NL 前提出发推断出结论?
- RQ3大型语言模型在将 NL 推理故事翻译为正确的 FOL 表达方面有多好?
- RQ4在 FOL 推理中,LLMs 处理错误或未知结论的局限性是什么?
- RQ5NL-FOL 转换提供了哪些关于将自然语言与形式逻辑表示对齐的见解?
主要发现
| Model | Model Size | Acc (%) |
|---|---|---|
| BERT-base | 110M | 56.83 |
| BERT-large | 340M | 59.03 |
| RoBERTa-base | 110M | 56.83 |
| RoBERTa-large | 340M | 62.11 |
- 在全监督下,RoBERTa-large 在 NL 推理上达到 62.11% 的准确率,优于 BERT 变体。
- 使用 GPT-3 或 Codex 的少量提示带来有限提升,GPT-3 davinci 在 NL 推理情境中达到 51.10%,Codex davinci 为 56.04%。
- GPT-3 davinci 在已发表的 GPT-3 变体中在 NL 推理上达到 43.44% 的最佳成绩,而 Codex davinci 在少量提示下达到 56.04%。
- NL-FOL 转换指标显示语法有效性约为 90%,但精确匹配和 AST 对齐较低,表明翻译质量落后于原始 NL 推理性能。
- 模型在对真结论的表现显著优于假结论或未知结论,后者在 RoBERTa 约为 54.41%,在 8-shot 提示下约为 36.91%。
- 更长的推理链(5–8 个前提)对最先进的 LLM 架构构成更大挑战。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。