QUICK REVIEW

[論文レビュー] Faithful Chain-of-Thought Reasoning

Qing Lyu, Shreya Havaldar|arXiv (Cornell University)|Jan 31, 2023

Topic Modeling被引用数 22

ひとこと要約

Faithful CoT は推論を Translation（NL から NL/SL チェーンへ）と Problem Solving（決定論ソルバー）に分解し、説明が最終答えを忠実に生成することを保証します。いくつかのデータセットで最先端の性能を達成します。

ABSTRACT

While Chain-of-Thought (CoT) prompting boosts Language Models' (LM) performance on a gamut of complex reasoning tasks, the generated reasoning chain does not necessarily reflect how the model arrives at the answer (aka. faithfulness). We propose Faithful CoT, a reasoning framework involving two stages: Translation (Natural Language query $ ightarrow$ symbolic reasoning chain) and Problem Solving (reasoning chain $ ightarrow$ answer), using an LM and a deterministic solver respectively. This guarantees that the reasoning chain provides a faithful explanation of the final answer. Aside from interpretability, Faithful CoT also improves empirical performance: it outperforms standard CoT on 9 of 10 benchmarks from 4 diverse domains, with a relative accuracy gain of 6.3% on Math Word Problems (MWP), 3.4% on Planning, 5.5% on Multi-hop Question Answering (QA), and 21.4% on Relational Inference. Furthermore, with GPT-4 and Codex, it sets the new state-of-the-art few-shot performance on 7 datasets (with 95.0+ accuracy on 6 of them), showing a strong synergy between faithfulness and accuracy.

研究の動機と目的

Chain-of-Thought prompting における推論チェーンの忠実性に対処する。
翻訳と問題解決の2段階フレームワーク（Translation and Problem Solving）を提案し、忠実な説明を得る。
数学ワード問題、計画、マルチホップQA、関係推論の性能向上を実証する。
LM、プロンプトのバリアント、 exemplars に関するロバスト性を示しつつ、限界と倫理を強調する。

提案手法

NL クエリを推論チェーンへ翻訳し、NL と記号言語（SL）を交互に配置する。
SL プログラムを決定論的外部ソルバーで解いて最終答えを生成する。
NL を用いて問題をサブ問題に分解し、サブステップを Python、Datalog、または PDDL といった SL でエンコードする。
2段階パイプラインを用いて A が C_SL の実行から導出されることを保証し、忠実性を確保する。
4つのドメイン（MWP, Planning, Multi-hop QA, Relational Inference）で複数のLMとデコード戦略を用いて Faithful CoT を評価する。
堅牢性、ソルバーの役割、エラーパターンに関する分析を提供する。

実験結果

リサーチクエスチョン

RQ1Faithful CoT は、さまざまな推論タスク全体で最終回答の正確性を向上させつつ、忠実な説明を提供できるか。
RQ2推論チェーンにおける NL と SL の相互配置が性能と解釈性に与える影響はどうか。
RQ3外部ソルバー（Python、Datalog、PDDL）の選択は結果と堅牢性にどのような影響を与えるか。
RQ4 Translation ステージの不透明さは解釈性の制約となり得るのか。

主な発見

GSM8K	SVAMP	MultiArith	ASDiv	AQuA	SayCan	StrategyQA	Date	Sport	CLUTRR
72.3	83.4	98.8	80.2	47.2	89.3	63.0	81.6	99.1	58.9
78.0	86.8	100.0	84.2	52.0	89.3	79.8	63.8	98.0	45.7
38.3	80.3	74.0	76.5	40.6	77.7	72.2	76.6	99.5	47.2
38.8	80.5	74.0	76.3	44.9	76.7	71.9	77.2	99.4	50.9

Faithful CoT は vanilla CoT および LtM ベースラインと比較して 9/10 ベンチマークで精度を向上させる。
Codex を用いた場合、Faithful CoT は Relational Inference で最大 21.4% の相対的利得を達成し、数学ワード問題、計画、マルチホップQA でも顕著な gains を示す。
GPT-4 を用いると、Faithful CoT は 7 データセットで SOTA の few-shot 結果を達成（6件で 95.0% 以上の精度）。
外部ソルバーは多くのタスクで重要であり、それを除外するといくつかのデータセットで精度が大幅に低下する。
Faithful CoT は人間による評価で合理的に妥当な推論チェーンを生み出すが、知識集約的または曖昧なケースで正解を伴いながら誤ったチェーンも一部見られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。