[論文レビュー] Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybrid Reasoning Models via Reinforcement Learning
TNT は thinking-mode solution component によって guid ed な適応型 non-thinking トークン制限を提案し、RL ベースのハイブリッド推論における報酬ハックを緩和して、数学ベンチマークでの精度とトークン効率を改善する。
Large reasoning models (LRMs) have attracted much attention due to their exceptional performance. However, their performance mainly stems from thinking, a long Chain of Thought (CoT), which significantly increase computational overhead. To address this overthinking problem, existing work focuses on using reinforcement learning (RL) to train hybrid reasoning models that automatically decide whether to engage in thinking or not based on the complexity of the query. Unfortunately, using RL will suffer the the reward hacking problem, e.g., the model engages in thinking but is judged as not doing so, resulting in incorrect rewards. To mitigate this problem, existing works either employ supervised fine-tuning (SFT), which incurs high computational costs, or enforce uniform token limits on non-thinking responses, which yields limited mitigation of the problem. In this paper, we propose Thinking-Based Non-Thinking (TNT). It does not employ SFT, and sets different maximum token usage for responses not using thinking across various queries by leveraging information from the solution component of the responses using thinking. Experiments on five mathematical benchmarks demonstrate that TNT reduces token usage by around 50% compared to DeepSeek-R1-Distill-Qwen-1.5B/7B and DeepScaleR-1.5B, while significantly improving accuracy. In fact, TNT achieves the optimal trade-off between accuracy and efficiency among all tested methods. Additionally, the probability of reward hacking problem in TNT's responses, which are classified as not using thinking, remains below 10% across all tested datasets.
研究の動機と目的
- 思考と非思考モードを交互に行うハイブリッド推論モデルの RL 訓練における報酬ハックの問題を動機付ける。
- supervise fine-tuning なしで query ごとに非思考トークン制限を適応的に設定する Thinking-Based Non-Thinking (TNT) を導入する。
- TNT が標準的な数学ベンチマークでトークン使用を約50%削減しつつ精度を向上させることを示す。
- TNT の基盤モデルへの頑健性と CoT 圧縮法および RL ベースのベースラインに対する競争力を実証する。
提案手法
- 思考モードと非思考モードを定義し、ハイブリッド推論モデルの RL 訓練における報酬ハックの問題を定義する。
- TNT を提案する: thinking-mode の解法コンポーネント(</think> の後のトークン)を用いて非思考モードの最大トークン使用量を各プロンプトごとに決定する。
- thinking-mode のサンプルにおける</think> 後の平均残りトークン Lx^N を、係数 ω でスケールし、サンプリング制限に対処するため L∅ によって保護する。
- 長さベースのペナルティ閾値 Lx^N を用いて思考モードと非思考モードを区別し、報酬ハックを緩和する報酬関数を構築する。
- 定義済みの報酬を用いたトークンレベルのポリシーグラデイントオブジェクト GRPO で訓練し、クエリ難易度に基づく動的モード選択を可能にする。

実験結果
リサーチクエスチョン
- RQ1適応的でクエリ難易度に応じた非思考トークン制限は、SFT なしで RL 訓練されたハイブリッド推論モデルにおける報酬ハックを減らせるか。
- RQ2 TNT は Thinkless、AdaptThink、AutoThink、そして基盤モデルと比較して、標準的な数学ベンチマークで精度とトークン効率のトレードオフを改善するか。
- RQ3 TNT の性能はより強い基盤モデルや異なる RL 設定でどうスケールするか。
- RQ4 TNT は分布外タスクや報酬成分のアブレーションに対して頑健か。
主な発見
- TNT は平均トークン使用を約46%削減し、5つの数学ベンチマークで平均精度を約4%向上させる。
- TNT はトークン効率(TE)を改善し、評価データセット全体で Thinkless、AdaptThink、AutoThink を上回る。
- TNT の非思考モード比率はテストデータで低く推移し、タスク難易度と負の相関を示し、必要時に適応的な思考を示す。
- TNT は報酬ハックを大幅に緩和し、非思考出力における非思考モード動詞の使用が基準と比較してまれであることを示す。
- TNT の利点はより強い基盤モデル(例:DeepScaleR-1.5B、DeepSeek-R1-Distill-Qwen-7B)でより顕著になる。
- TNT は CoT 圧縮法より精度と TE の点で優れており、分布外設定でも頑健性を維持する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。