Skip to main content
QUICK REVIEW

[論文レビュー] Faithful Chain-of-Thought Reasoning

Qing Lyu, Shreya Havaldar|arXiv (Cornell University)|Jan 31, 2023
Topic Modeling被引用数 22
ひとこと要約

Faithful CoT は推論を Translation(NL から NL/SL チェーンへ)と Problem Solving(決定論ソルバー)に分解し、説明が最終答えを忠実に生成することを保証します。いくつかのデータセットで最先端の性能を達成します。

ABSTRACT

While Chain-of-Thought (CoT) prompting boosts Language Models' (LM) performance on a gamut of complex reasoning tasks, the generated reasoning chain does not necessarily reflect how the model arrives at the answer (aka. faithfulness). We propose Faithful CoT, a reasoning framework involving two stages: Translation (Natural Language query $ ightarrow$ symbolic reasoning chain) and Problem Solving (reasoning chain $ ightarrow$ answer), using an LM and a deterministic solver respectively. This guarantees that the reasoning chain provides a faithful explanation of the final answer. Aside from interpretability, Faithful CoT also improves empirical performance: it outperforms standard CoT on 9 of 10 benchmarks from 4 diverse domains, with a relative accuracy gain of 6.3% on Math Word Problems (MWP), 3.4% on Planning, 5.5% on Multi-hop Question Answering (QA), and 21.4% on Relational Inference. Furthermore, with GPT-4 and Codex, it sets the new state-of-the-art few-shot performance on 7 datasets (with 95.0+ accuracy on 6 of them), showing a strong synergy between faithfulness and accuracy.

研究の動機と目的

  • Chain-of-Thought prompting における推論チェーンの忠実性に対処する。
  • 翻訳と問題解決の2段階フレームワーク(Translation and Problem Solving)を提案し、忠実な説明を得る。
  • 数学ワード問題、計画、マルチホップQA、関係推論の性能向上を実証する。
  • LM、プロンプトのバリアント、 exemplars に関するロバスト性を示しつつ、限界と倫理を強調する。

提案手法

  • NL クエリを推論チェーンへ翻訳し、NL と記号言語(SL)を交互に配置する。
  • SL プログラムを決定論的外部ソルバーで解いて最終答えを生成する。
  • NL を用いて問題をサブ問題に分解し、サブステップを Python、Datalog、または PDDL といった SL でエンコードする。
  • 2段階パイプラインを用いて A が C_SL の実行から導出されることを保証し、忠実性を確保する。
  • 4つのドメイン(MWP, Planning, Multi-hop QA, Relational Inference)で複数のLMとデコード戦略を用いて Faithful CoT を評価する。
  • 堅牢性、ソルバーの役割、エラーパターンに関する分析を提供する。

実験結果

リサーチクエスチョン

  • RQ1Faithful CoT は、さまざまな推論タスク全体で最終回答の正確性を向上させつつ、忠実な説明を提供できるか。
  • RQ2推論チェーンにおける NL と SL の相互配置が性能と解釈性に与える影響はどうか。
  • RQ3外部ソルバー(Python、Datalog、PDDL)の選択は結果と堅牢性にどのような影響を与えるか。
  • RQ4 Translation ステージの不透明さは解釈性の制約となり得るのか。

主な発見

GSM8KSVAMPMultiArithASDivAQuASayCanStrategyQADateSportCLUTRR
72.383.498.880.247.289.363.081.699.158.9
78.086.8100.084.252.089.379.863.898.045.7
38.380.374.076.540.677.772.276.699.547.2
38.880.574.076.344.976.771.977.299.450.9
  • Faithful CoT は vanilla CoT および LtM ベースラインと比較して 9/10 ベンチマークで精度を向上させる。
  • Codex を用いた場合、Faithful CoT は Relational Inference で最大 21.4% の相対的利得を達成し、数学ワード問題、計画、マルチホップQA でも顕著な gains を示す。
  • GPT-4 を用いると、Faithful CoT は 7 データセットで SOTA の few-shot 結果を達成(6件で 95.0% 以上の精度)。
  • 外部ソルバーは多くのタスクで重要であり、それを除外するといくつかのデータセットで精度が大幅に低下する。
  • Faithful CoT は人間による評価で合理的に妥当な推論チェーンを生み出すが、知識集約的または曖昧なケースで正解を伴いながら誤ったチェーンも一部見られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。