[論文レビュー] Reasoning aligns language models to human cognition
本論文はサンプリングと推論を分離する能動的確率推論タスクを提案し、チェーンオブソート(CoT)推論は主に推論の質を高め、LLM の意思決定戦略を人間の認知と一致させる一方、サンプリングは依然として最適ではない、という結論を示す。
Do language models make decisions under uncertainty like humans do, and what role does chain-of-thought (CoT) reasoning play in the underlying decision process? We introduce an active probabilistic reasoning task that cleanly separates sampling (actively acquiring evidence) from inference (integrating evidence toward a decision). Benchmarking humans and a broad set of contemporary large language models against near-optimal reference policies reveals a consistent pattern: extended reasoning is the key determinant of strong performance, driving large gains in inference and producing belief trajectories that become strikingly human-like, while yielding only modest improvements in active sampling. To explain these differences, we fit a mechanistic model that captures systematic deviations from optimal behavior via four interpretable latent variables: memory, strategy, choice bias, and occlusion awareness. This model places humans and models in a shared low-dimensional cognitive space, reproduces behavioral signatures across agents, and shows how chain-of-thought shifts language models toward human-like regimes of evidence accumulation and belief-to-choice mapping, tightening alignment in inference while leaving a persistent gap in information acquisition.
研究の動機と目的
- 「サンプリング」と「推論」を分離する能動的確率推論タスクを導入する。
- 同一の指示条件下で人間と広範なLLMを評価する。
- 人間とモデルの挙動を説明する4つの潜在変数を用いる機械的モデルを開発する。
- CoT 推論がLLMを人間に近い認知戦略へ移動させる程度を評価する。
提案手法
- 4つのボタンを持つ能動的確率推論タスクを設計し、1つをREDへ偏らせ、得られる証拠を操作するマスクを設定する。
- 人間とLLMに対してサンプリングラウンドを行わせた後、最終的なMAPベースの推論ラウンドを実施する。
- サンプリングをPPOで、推論をMAPで行う準最適参考エージェントを定義して性能をベンチマークする。
- 4つの潜在変数(Memory beta、Strategy kappa、Choice Bias omega、Occlusion Awareness theta)を用いた機械的モデルを適合させ、サンプリングと推論の挙動を説明する。
- betaとkappa_fを用いて人間とモデルの計算を比較する共有認知空間にエージェントを埋め込む。

実験結果
リサーチクエスチョン
- RQ1言語モデルは不確実性の下で人間のように意思決定をするのか、そしてCoT推論はどのような役割を果たすのか。
- RQ2サンプリングと推論は性能にどのように寄与するのか、CoTは主にどちらを改善するのか。
- RQ3機械的で潜在変数を持つモデルは人間とLLMの意思決定戦略を一致させられるのか。
- RQ4CoT推論はLLMをどの程度人間の推論に近づけ、非人間的なサンプリングパターンから離すのか。
主な発見
- 拡張された推論はサンプリング品質よりも推論品質を大幅に向上させることが多い。
- CoT による推論の向上は、LLMを共通の認知空間で人間に近い戦略へと導く。
- 一部の推論モデルは人間の推論品質と同等かそれ以上に一致するが、依然として人間のサンプリングには及ばない。
- 4パラメータ潜在空間(Memory、Strategy、Choice Bias、Occlusion Awareness)は、人間とLLMの最適ベイズ行動からの逸脱を捉える。
- CoT推論はLLMをほぼ最適に近いメモリ更新とMAP様の最終決定へ移動させるが、サンプリングは熟練した人間と比べて依然最適とは言えない。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。