[論文レビュー] When More is Less: Understanding Chain-of-Thought Length in LLMs
この論文は、長いチェイン・オブ・ソート(CoT)が常により良いとは限らないことを示す。モデル能力と課題難易度に依存する最適なCoT長が存在し、理論と実験で裏付けられ、推論時に最適CoTを活用するLength-filtered Voteを提案する。
Large Language Models (LLMs) employ Chain-of-Thought (CoT) reasoning to deconstruct complex problems. While longer CoTs are often presumed superior, this paper challenges that notion, arguing that longer is not always better. Drawing on combined evidence from real-world observations, controlled experiments, and theoretical analysis, we demonstrate that task accuracy typically follows an inverted U-shaped curve with CoT length, where performance initially improves but eventually decreases as the number of CoT steps increases. With controlled experiments, we further uncover the scaling behaviors of the optimal CoT length: it increases with task difficulty but decreases with model capability, exposing an inherent simplicity bias where more capable models favor shorter, more efficient CoT reasoning. This bias is also evident in Reinforcement Learning (RL) training, where models gravitate towards shorter CoTs as their accuracy improves. To have a deep understanding of these dynamics, we establish a simple theoretical model that formally proves these phenomena, including the optimal length's scaling laws and the emergence of simplicity bias during RL. Guided by this framework, we demonstrate significant practical benefits from training with optimally-lengthed CoTs and employing length-aware filtering at inference. These findings offer both a principled understanding of the "overthinking" phenomenon and multiple practical guidelines for CoT calibration, enabling LLMs to achieve optimal reasoning performance with adaptive CoTs tailored to task complexity and model capability.
研究の動機と目的
- LLMのモデルサイズと課題難易度を跨ぐ多-step推論におけるCoT長がどのように影響するかを調査する動機づけ。
- CoT長と最終精度との非単調関係を特徴づける。
- 最適CoT長の存在と、それがモデル能力と課題難易度に応じてスケーリングする理論的枠組みを構築する。
- synthetic算術タスクおよび実世界データセット(MATH)上で理論的提案を経験的に検証し、最適CoT長の訓練/推論上の利点を示す。
提案手法
- 深さT、各ステップ長さtを固定した二分木構造の合成算術タスクをコントロール可能に定義する。
- t = ceil(T/N) のNステッププロセスとしてCoTをモデル化し、CoT長を強制するためのコントロールトークンを挿入する。
- 異なるレイヤ数のGPT-2系を訓練して、モデル能力Mが最適CoT長に与える影響を調べる。
- 分化可能な最終正解関数A(N) = alpha * ((1 - E(N,M,T)) (1 - sigma(T)))^Nを証明し、簡略化および拡張誤差モデルで最適N(M,T)を導出する。
- 実データLLM(Qwen2.5系列を用いたMATHデータセット)で経験的に検証し、最適CoT長を用いた訓練とランダム長での訓練を比較する。
- Length-filtered Voteを提案し、長さベースのグループ間のエントロピーを用いた予測不確実性に基づいてCoT長を選択する推論法を提示する。
実験結果
リサーチクエスチョン
- RQ1CoT長を増やすことは、モデルサイズと課題難易度を問わず推論性能を一貫して向上させるのか?
- RQ2モデル能力、課題難易度、および最適CoT長との関係はどうなるのか?
- RQ3理論的枠組みは最適CoT長を予測できるのか、そしてそれは合成データと実データの両方で経験的に観察できるのか?
- RQ4訓練や推論の手順は、最適CoT長を活用して性能を向上させ、場合によっては小さなモデルでも可能か?
- RQ5長さを考慮した推論法(Length-filtered Vote)は、データセットやモデルを跨いで実務的に有効か?
主な発見
- CoT長と最終精度には非単調な関係があり、長いCoTは初期には改善するが、最終的には性能を低下させることがある。
- 最適CoT長は課題難易度が高いほど大きくなるが、モデルサイズが大きくなるほど小さくなる。すなわち、より強いモデルはより少ないステップを要求する。
- 理論的枠組みは最適N(M,T)が存在し、モデル能力と課題難易度に依存することを示し、Nが無限大に成長すると最終的には損失が生じる。
- 実データの数理問題(MATH)では、より大きなモデルは短い最適CoT長を好み、最適長は課題難易度と相関する。
- 最適CoT長を用いたデータでの訓練は高い性能を生むことがあり、ランダムCoT長で訓練されたより大きなモデルを上回る場合もある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。