QUICK REVIEW

[論文レビュー] Provable and Practical In-Context Policy Optimization for Self-Improvement

Tianrun Yu, Yuxiao Yang|arXiv (Cornell University)|Mar 2, 2026

Reinforcement Learning in Robotics被引用数 0

ひとこと要約

論文は理論的に1層線形自己注意トランスフォーマーが文脈内データとともに方針最適化を模倣できることを示し、自己改善のための最小エントロピー選択を伴う実用的なテスト時文脈内最適化アルゴリズム ME-ICPO を提案します。

ABSTRACT

We study test-time scaling, where a model improves its answer through multi-round self-reflection at inference. We introduce In-Context Policy Optimization (ICPO), in which an agent optimizes its response in context using self-assessed or externally observed rewards without modifying its parameters. To explain this ICPO process, we theoretically show that with sufficient pretraining under a novel Fisher-weighted logit-matching objective, a single-layer linear self-attention model can provably imitate policy-optimization algorithm for linear bandits. Building on this theory, we propose Minimum-Entropy ICPO (ME-ICPO), a practical algorithm that iteratively uses its response and self-assessed reward to refine its response in-context at inference time. By selecting the responses and their rewards with minimum entropy, ME-ICPO ensures the robustness of the self-assessed rewards via majority voting. Across standard mathematical reasoning tasks, ME-ICPO attains competitive, top-tier performance while keeping inference costs affordable compared with other inference-time algorithms. Overall, ICPO provides a principled understanding of self-reflection in LLMs and yields practical benefits for test-time scaling for mathematical reasoning.

研究の動機と目的

LLM の自己改善を理解するために、多回の自己反省を文脈内方針最適化（ICPO）として定式化する。
十分に事前学習された1層線形自己注意モデルが線形バンディットに対する方針最適化を模倣できることを証明する。
自己評価報酬を用いて文脈内で応答を洗練する実用的なテスト時アルゴリズム ME-ICPO を導入する。
標準的な数学的推論ベンチマークでの頑健性と競争力のある性能を実証する。

提案手法

モデルが過去の行動と観測報酬を用いて文脈内方針を更新するICPOフレームワークを定義する。
Fisher 重み付きロジットマッチング目的の下で方針最適化の更新を模倣する閉形式の線形自己注意（LSA）表現を導出する。
LSA の出力を方針最適化ロジットと連携させる監督付き前訓練損失を、射影Fisher損失とKL代替関係を介して提案する。
確率母集団の同値性（定理4.2）、有限サンプルの一貫性（定理4.3）、報酬の摂動に対する安定性（定理4.8）という理論的保証を確立する。
多数票報酬、CoTSummaries、および最小エントロピー選択を使って文脈内履歴を更新する実用的で勾配なしのテスト時アルゴリズム ME-ICPO を提示する。
ME-ICPO のアルゴリズム設計図を提供し、複雑さの考察と頑健性の側面を論じる。

実験結果

リサーチクエスチョン

RQ1ICPO はパラメータを更新せずに LLM が自己反省を行い応答を改善する仕組みを説明できるか？
RQ2事前訓練の下で、単純な1層線形自己注意ネットワークは文脈内データを用いた方針最適化プロセスを模倣できるか？
RQ3Fisher weighted の射影損失は ICPO におけるKLベースの方針目的の信頼できる代替として機能するか？
RQ4ME-ICPO はノイズのある自己評価報酬に対して頑健で、数学的推論タスクの推論時にスケール可能か？
RQ5ベースラインと比較して ME-ICPO は標準的な数学的推論ベンチマークでどの程度の実証的利点を示すか？

主な発見

十分な事前訓練を得た場合、1 層 LSA は線形バンディットに対する方針最適化を理論的に模倣できる。
Fisher 重み付き損失は混合ポリシー KL の厳密な代替として機能し、文脈内方針学習を支持する。
母集団同値性が成立する：事前訓練された LSA はすべての履歴に対して PO 方針を模倣できる（定理 4.2）。
有限サンプルの保証により、経験的訓練データが高確率で PO 方針を模倣するのに十分である（定理 4.3）。
ME-ICPO は推論時の効率性の利点とともに数学的推論タスクで競争力のある性能を示す。
ME-ICPO は訓練が進むにつれて報酬の一-shot 摂動に対して減衰効果を通じて頑健性を示す（定理 4.8）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。