QUICK REVIEW

[論文レビュー] Kimi k1.5: Scaling Reinforcement Learning with LLMs

Kimi Team, Angang Du|ArXiv.org|Jan 22, 2025

Robot Manipulation and Learning被引用数 10

ひとこと要約

Kimi k1.5 は、長い文脈と long-CoT 推論を用いた強化学習で、数学、コーディング、ビジョンのベンチマーク全体で最先端の性能を達成し、long2short 手法を導入します。

ABSTRACT

Language model pretraining with next token prediction has proved effective for scaling compute but is limited to the amount of available training data. Scaling reinforcement learning (RL) unlocks a new axis for the continued improvement of artificial intelligence, with the promise that large language models (LLMs) can scale their training data by learning to explore with rewards. However, prior published work has not produced competitive results. In light of this, we report on the training practice of Kimi k1.5, our latest multi-modal LLM trained with RL, including its RL training techniques, multi-modal data recipes, and infrastructure optimization. Long context scaling and improved policy optimization methods are key ingredients of our approach, which establishes a simplistic, effective RL framework without relying on more complex techniques such as Monte Carlo tree search, value functions, and process reward models. Notably, our system achieves state-of-the-art reasoning performance across multiple benchmarks and modalities -- e.g., 77.5 on AIME, 96.2 on MATH 500, 94-th percentile on Codeforces, 74.9 on MathVista -- matching OpenAI's o1. Moreover, we present effective long2short methods that use long-CoT techniques to improve short-CoT models, yielding state-of-the-art short-CoT reasoning results -- e.g., 60.8 on AIME, 94.6 on MATH500, 47.3 on LiveCodeBench -- outperforming existing short-CoT models such as GPT-4o and Claude Sonnet 3.5 by a large margin (up to +550%).

研究の動機と目的

固定データセットを超えた新しいデータ成長軸として、LLMs で強化学習を拡張する可能性を探る。
LLMs のための長い文脈 RL（最大 128k トークン）と改良されたポリシー最適化を開発・検証する。
モンテカルロ木探索、価値関数、報酬モデルの処理を回避する、シンプルな RL フレームワークを提案する。
横断モーダル推論を向上させる、テキストとビジョンのマルチモーダルトレーニングとデータレシピを確立する。
long-CoT 推論の利点を short-CoT モデルへ転送する long2short 手法を導入する。

提案手法

文脈長を128kトークンに拡大し、トレーニング効率のために部分ロールアウトを用いて軌跡を再利用する。
KL正則化項を伴う頑健なポリシー最適化のため、オンラインミラー下降法の派生を適用する。
長すぎるCoT推論を抑制する長さペナルティを組み込みつつ、正確性を維持する。
報酬改ざんを緩和するため、多様性・難易度のバランス・正確な評価性を備えた RL プロンプトセットを整備する。
報酬モデル（Chain-of-Thought RM）とテストケース/検証シグナルをフィードバックとして利用し、RL の前に long-CoT の指導付き微調整を実施する。
テキストとビジョンのマルチモーダルデータで訓練し、long2short 戦略（モデル結合、最短拒否サンプリング、DPO、long2short RL）を実装する。

実験結果

リサーチクエスチョン

RQ1長い文脈を持つ LLM で RL をスケールさせることは、領域を超えた複雑な推論において利得を生み出すか？
RQ2MCTSや明示的な価値関数に頼らず、long-CoT RL は計画型推論を改善するか？
RQ3制限されたトークン予算の下で、強力な short-CoT 性能を達成する long2short 転送はどの程度効果的か？
RQ4LLM での RL における報酬ハックを緩和する、堅牢なデータと報酬信号の実践とは？
RQ5マルチモーダルトレーニングデータとビジョン-言語のグラウンディングは、横断モーダル推論能力にどのように影響するか？

主な発見

long-CoT RL アプローチは、AIME で 77.5、MATH 500 で 96.2、Codeforces の 94 パーセンタイル、MathVista で 74.9 と、複数のベンチマークとモダリティで最先端の推論を達成し、OpenAI o1 と同等である。
long-CoT フレームワークは短行の推論（short-CoT）でも最先端の結果を示し、例: AIME で 60.8、MATH500 で 94.6、LiveCodeBench で 47.3 を達成し、GPT-4o や Claude Sonnet 3.5 を最大で 550% 上回る。
A simplistic RL framework with long-context scaling and improved policy optimization can achieve strong performance without Monte Carlo tree search or value functions.
Long-context activation (up to 131,072 tokens in pretraining) and partial rollouts enable efficient scaling of RL with LLMs.
Long2short methods effectively transfer planning priors from long-CoT to short-CoT models via techniques such as model merging, shortest rejection sampling, DPO, and RL-based approaches.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。