QUICK REVIEW

[論文レビュー] FOLIO: Natural Language Reasoning with First-Order Logic

Simeng Han, Hailey Schoelkopf|arXiv (Cornell University)|Sep 2, 2022

Topic Modeling被引用数 31

ひとこと要約

FOLIO は、明示的な一階述語論理注釈を伴う人間が注釈したオープンドメインのデータセットを提供し、真に演繹的な推論と NL-FOL 翻訳のベンチマークを LM に対して行います。

ABSTRACT

Large language models (LLMs) have achieved remarkable performance on a variety of natural language understanding tasks. However, existing benchmarks are inadequate in measuring the complex logical reasoning capabilities of a model. We present FOLIO, a human-annotated, logically complex and diverse dataset for reasoning in natural language (NL), equipped with first-order logic (FOL) annotations. FOLIO consists of 1,430 examples (unique conclusions), each paired with one of 487 sets of premises used to deductively reason for the validity of each conclusion. The logical correctness of the premises and conclusions is ensured by their FOL annotations, which are automatically verified by an FOL inference engine. In addition to the main NL reasoning task, NL-FOL pairs in FOLIO constitute a new NL-FOL translation dataset. Our experiments on FOLIO systematically evaluate the FOL reasoning ability of supervised fine-tuning on medium-sized language models. For both NL reasoning and NL-FOL translation, we benchmark multiple state-of-the-art language models. Our results show that a subset of FOLIO presents a challenge for one of the most capable {Large Language Model (LLM)} publicly available, GPT-4.

研究の動機と目的

並列の一階述語論理（FOL）式で注釈された、大規模で専門家が執筆した NL 推論データセットを作成する。
FOL推論エンジンを介して前提と結論の論理的妥当性を保証する。
NL-FOL 翻訳タスクと、NLストーリーをFOLへ翻訳する評価指標を提供する。
中規模モデルと大規模LLMを、NL 推論と NL-FOL 翻訳でベンチマークする。
LM による一階述語論理推論の将来の評価を可能にするデータセットとコードを提供する。

提案手法

実世界の知識と専門家の作成による487の前提集合にわたり、1,435の結論を収集・注釈する。
前提と結論に対して並列の FOL 公式を注釈し、カスタムの FOL 推論エンジンで検証する。
NL-FOL 翻訳タスクを通じて NL ストーリーを FOL に揃え、構文・AST・述語・実行の評価指標を定義する。
NL 推論に対して、教師付きファインチューニング（BERT/RoBERTa）と few-shot prompting（GPT-3, Codex, OPT, GPT-NeoX）でニューラルモデルを評価する。
構文的妥当性・構文的完全一致・AST一致・述語のファジーマッチ・実行精度を用いて NL-FOL 翻訳を評価する。

実験結果

リサーチクエスチョン

RQ1現在の LM にとって、自然言語にもとづく一階述語論理推論はどれほど難しいか？
RQ2標準的なファインチューニングと few-shot prompting によって、FOL 推論の下で NL 前提から結論をどの程度推論できるか？
RQ3大規模言語モデルは NL 推論ストーリーを正しい FOL 表現へどれだけ上手く翻訳できるか？
RQ4FOL 推論における false / unknown な結論への対応で LLMs の限界は何か？
RQ5NL-FOL 翻訳は、NL と形式的論理表現の整合性についてどんな洞察を提供するか？

主な発見

Model	Model Size	Acc (%)
BERT-base	110M	56.83
BERT-large	340M	59.03
RoBERTa-base	110M	56.83
RoBERTa-large	340M	62.11

RoBERTa-large は NL 推論で完全 supervised の下で 62.11% の精度を達成し、BERT 系より高い。
GPT-3 または Codex を使った few-shot prompting は限られた改善しかもたらさず、NL 推論ケースで GPT-3 davinci が 51.10%、Codex davinci が 56.04% に達した。
GPT-3 davinci は NL 推論で公表された GPT-3 のベスト変種で 43.44%、一方 Codex davinci は few-shot prompts で 56.04% に達する。
NL-FOL 翻訳指標は構文的妥当性がおおむね 90% だが、厳密一致と AST の整合は低く、翻訳品質が生の NL 推論性能に遅れをとっていることを示している。
Models perform notably better on True conclusions than False or Unknown, with False/Unknown achieving around 54.41% (RoBERTa) or 36.91% (8-shot prompts) respectively.
Longer reasoning chains (5–8 premises) pose a greater challenge for state-of-the-art LMs compared to shorter ones.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。