[論文レビュー] Large Language Models are In-Context Semantic Reasoners rather than Symbolic Reasoners
tldr: 本論文は大規模言語モデル(LLMs)における意味論と文脈内推論を分離し、意味表現が多くのLLM推論を駆動することを示し、純粋に象徴的な手がかりよりも多くのタスクで優れており、演繹・帰納・逸脱推論における想起と推論を分析する。
The emergent few-shot reasoning capabilities of Large Language Models (LLMs) have excited the natural language and machine learning community over recent years. Despite of numerous successful applications, the underlying mechanism of such in-context capabilities still remains unclear. In this work, we hypothesize that the learned extit{semantics} of language tokens do the most heavy lifting during the reasoning process. Different from human's symbolic reasoning process, the semantic representations of LLMs could create strong connections among tokens, thus composing a superficial logical chain. To test our hypothesis, we decouple semantics from the language reasoning process and evaluate three kinds of reasoning abilities, i.e., deduction, induction and abduction. Our findings reveal that semantics play a vital role in LLMs' in-context reasoning -- LLMs perform significantly better when semantics are consistent with commonsense but struggle to solve symbolic or counter-commonsense reasoning tasks by leveraging in-context new knowledge. The surprising observations question whether modern LLMs have mastered the inductive, deductive and abductive reasoning abilities as in human intelligence, and motivate research on unveiling the magic existing within the black-box LLMs. On the whole, our analysis provides a novel perspective on the role of semantics in developing and evaluating language models' reasoning abilities. Code is available at {\url{https://github.com/XiaojuanTang/ICSR}}.
研究の動機と目的
- LLMsが意味論を推論プロンプトから分離することで、文脈内推論を意味論なしに行えるかを調査する。
- 3つの推論タイプ—演繹、帰納、逸脱—を制御された象徴的設定で評価する。
- 意味内容と推論情報の分離により、LLMsの新規情報の記憶・更新挙動を意味論対称象徴情報の観点で評価する。
- 自然言語と論理言語という常識知識・表現がLLMsの文脈内推論に与える影響を検討する。
提案手法
- 閉世界仮定・ノイズフリーな象徴的推論を用いた合成的Symbolic Treeデータセットと、意味なし推論を評価するためのopen-world仮定下のProofWriterサブセットを提案する。
- predicatesを象徴ラベル(例:r1, r2)に置換し、entityをIDにすることで意味論を分離し、Semantics(自然言語predicates)設定と比較する。
- 演繹・帰納・逸脱タスクに対してChatGPT、GPT-4、LLaMA-7Bを評価し、論理ベースのベースラインと記憶比較にNeo4jを使用する。
- memorizationタスクでLLaMA-7Bをファインチューニングし、内部メモリと外部知識ベースを比較する。
- Conditioning効果を分析:ルール/事実を除去し、反常識ラベルを導入し、ProofWriter OWLタスクを用いて意味論の影響を検討する。
- 文脈長と表現形態(自然言語 vs 論理言語)が推論性能に与える影響を探索し、ゼロショットとCoTの効果、内部知識対外部知識の使用を評価する。

実験結果
リサーチクエスチョン
- RQ1文脈内推論を象徴的タスクで行う際、LLMは意味論に依存するのか、それとも内部プリオリを用いるのか?
- RQ2演繹・帰納・逸脱タスクは意味論表現と象徴表現の感度にどのように差があるか?
- RQ3意味論分離下での常識知識と記憶はLLM推論においてどのような役割を果たすか?
- RQ4表現形式とプロンプト戦略(ゼロショット vs CoT)は文脈内推論の性能にどう影響するか?
主な発見
| カテゴリ | モデル | ベースライン | 演繹 | 帰納 | 逸脱 | |
|---|---|---|---|---|---|---|
| Symbols | ChatGPT | Zero-Shot | 52.6 | 6.10 | 1.50 | |
| Symbols | ChatGPT | Zero-Shot-CoT | 55.7 | 7.86 | 4.90 | |
| Symbols | ChatGPT | Few-Shot-CoT | 54.8 | - | 18.2 | |
| Symbols | ChatGPT | Zero-Plus-Few-Shot-CoT | 55.7 | - | - | |
| Symbols | GPT-4 | Zero-Shot | 68.8 | 9.28 | 25.0 | |
| Symbols | GPT-4 | Zero-Shot-CoT | 71.1 | 8.93 | 31.2 | |
| Symbols | GPT-4 | Few-Shot-CoT | 67.6 | - | 44.2 | |
| Symbols | GPT-4 | Zero-Plus-Few-Shot-CoT | 67.2 | - | - | |
| Semantics | ChatGPT | Zero-Shot | 66.1 | 36.4 | 2.94 | |
| Semantics | ChatGPT | Zero-Shot-CoT | 65.5 | 32.2 | 3.40 | |
| Semantics | ChatGPT | Few-Shot-CoT | 67.1 | - | 21.8 | |
| Semantics | ChatGPT | Zero-Plus-Few-Shot-CoT | 67.2 | - | - | |
| Semantics | GPT-4 | Zero-Shot | 79.2 | 52.5 | 27.3 | |
| Semantics | GPT-4 | Zero-Shot-CoT | 86.2 | 53.9 | 33.4 | |
| Semantics | GPT-4 | Few-Shot-CoT | 91.1 | - | 69.2 | |
| Random | - | - | - | - | - | |
| Logic-based | - | - | - | 57.1 | 100 | 100 |
- 意味論駆動の設定はSymbolic Treeにおける演繹・帰納推論の性能を象徴的設定より著しく向上させた。
- GPT-4は一般にChatGPTを上回り、意味論が性能を助ける一方、象徴表現はときに帰納的利益を減少させることがある。
- 象徴的ベースラインは一部の象徴論理タスクでは依然として強く、現在のLLMsで象徴的推論が完全には捉えきれていないことを示す。
- 新しい事実の記憶は意味表現で速いが、因子間の相関が強くなるため忘却が高くなることがある。
- ゼロショット-CoTは意味論設定での利益が限定的で、意味論分離タスクではゼロショットより劣る場合がある。
- 内部知識の利用は推論タスクで外部文脈ルールへの依存よりも上回ることが多い。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。