Skip to main content
QUICK REVIEW

[論文レビュー] Reasoning Beyond Words ? Exploring framework for hidden state reasoning

Shibo Hao|arXiv (Cornell University)|Dec 9, 2024
Natural Language Processing Techniques被引用数 16
ひとこと要約

本論文は Coconut を紹介する:連続思考(潜在推論)パラダイムで、LLM が言語空間ではなく連続潜在空間で推論できるようにし、マルチステージのカリキュラムと潜在探索パターンを備え、計画集中タスクで従来の CoT を上回ることができる。

ABSTRACT

Large language models (LLMs) are typically constrained to reason in the language space, where they express the reasoning process through a chain-of-thought (CoT) to solve complex problems. However, the language space may not always be optimal for reasoning. Most word tokens primarily ensure textual coherence and are not essential for reasoning, while some critical tokens require complex planning and pose challenges to LLMs. To explore the potential of reasoning beyond language, we introduce a new paradigm called Coconut (Chain of Continuous Thought). Coconut utilizes the last hidden state of the LLM as a representation of the reasoning state, termed "continuous thought." Instead of decoding this state into words, we feed it back to the model as the next input embedding directly in the continuous space. This latent reasoning paradigm enables an advanced reasoning pattern, where continuous thoughts can encode multiple alternative next steps, allowing the model to perform a breadth-first search (BFS) rather than committing prematurely to a single deterministic path as in CoT. Coconut outperforms CoT on logical reasoning tasks that require substantial search during planning and achieves a better trade-off between accuracy and efficiency.

研究の動機と目的

  • 言語トークンベースの推論の限界に対処するため、潜在的で言語-free な空間での推論を動機づける。
  • 次の入力として継続的な隠れ状態をモデルに供給する Coconut フレームワークを提案する。
  • 潜在推論がブレッドス・ファースト探索のような計画を可能にし、特定のタスクで標準の CoT より優れることを示す。
  • 言語ベースの CoT の supervison から潜在推論を効果的に訓練する多段階カリキュラムを示す。

提案手法

  • 言語モードと潜在モードを交互に定義し、潜在モード中は前の隠れ状態を次の入力埋め込みとして使用する。
  • <bot> および <eot> トークンを導入し、潜在推論の区間をマークし、訓練と推論中の連続した思考をラップする。
  • 言語推論ステップを c 個の連続した思考に徐々に置換する多段階カリキュラムで訓練する(c はステップあたりの潜在思考数を制御)。
  • マスキング付き標準クロスエントロピー損失を用いて訓練しつつ、連続した思考を通して逆伝播を許可する。
  • 潜在モードと言語モードを切り替え、潜在モードの長さを固定または分類器ガイドで決定して貪欲デコードで推論する。
  • GSM8k は数学推論、ProntoQA は論理推論、ProsQA は計画集中推論を評価し、CoT, No-CoT, iCoT, Pause-token のベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1潜在的な連続思考は、言語ベースの連鎖よりも効率的で効果的な推論をLLMで可能にするか?
  • RQ2マルチステージのカリキュラムは、エンドツーエンドの潜在訓練より潜在推論をより効果的に訓練するのに役立つか?
  • RQ3どの推論タスクで潜在空間の推論が伝統的な chain-of-thought を上回るか?
  • RQ4潜在推論は計画とバックトラックをどう表現し、潜在的な探索木として解釈できるか?

主な発見

方法GSM8k 精度 (%)# トークンProntoQA 精度 (%)# トークンProsQA 精度 (%)# トークン
CoT42.9 ± 0.225.098.8 ± 0.892.577.5 ± 1.949.4
No-CoT16.5 ± 0.52.293.8 ± 0.73.076.7 ± 1.08.2
iCoT30.0 ∗2.299.8 ± 0.33.098.2 ± 0.38.2
Pause Token16.4 ± 1.82.277.7 ± 21.03.075.9 ± 0.78.2
Coconut (Ours)34.1 ± 1.58.299.8 ± 0.29.097.0 ± 0.314.2
- w/o curriculum14.4 ± 0.88.252.4 ± 0.49.076.1 ± 0.214.2
- w/o thought21.6 ± 0.52.399.9 ± 0.13.095.5 ± 1.18.2
- pause as thought24.1 ± 0.72.2100.0 ± 0.13.096.6 ± 0.88.2
  • 連続的な思考は、3つのデータセットすべてで No-CoT を上回る推論精度を改善する。
  • ProntoQA と ProsQA で Coconut のバリアントは最終精度で CoT を上回り、トークン数を減らしており、効率と計画性の改善を示す。
  • GSM8k では潜在思考の数 c を増やすとパフォーマンスが向上し、潜在空間での連鎖効果を示唆する。
  • ProsQA は CoT が効果を発揮しない計画集中タスクで潜在推論の利点を示す。
  • 多段階カリキュラムは重要であり、カリキュラムなしの場合は特に潜在思考なしでは性能が低下する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。