QUICK REVIEW

[論文レビュー] Continuous-Utility Direct Preference Optimization

Muhammad Ahmed Mohsin, Muhammad Umer|arXiv (Cornell University)|Jan 31, 2026

Topic Modeling被引用数 0

ひとこと要約

CU-DPOは二値の嗜好を連続的なスコアに置き換え、複数のプロンプトベースの認知戦略にLLMsを適合させることで戦略選択と下流の推論性能を向上させる。

ABSTRACT

Large language model reasoning is often treated as a monolithic capability, relying on binary preference supervision that fails to capture partial progress or fine-grained reasoning quality. We introduce Continuous Utility Direct Preference Optimization (CU-DPO), a framework that aligns models to a portfolio of prompt-based cognitive strategies by replacing binary labels with continuous scores that capture fine-grained reasoning quality. We prove that learning with K strategies yields a Theta(K log K) improvement in sample complexity over binary preferences, and that DPO converges to the entropy-regularized utility-maximizing policy. To exploit this signal, we propose a two-stage training pipeline: (i) strategy selection, which optimizes the model to choose the best strategy for a given problem via best-vs-all comparisons, and (ii) execution refinement, which trains the model to correctly execute the selected strategy using margin-stratified pairs. On mathematical reasoning benchmarks, CU-DPO improves strategy selection accuracy from 35-46 percent to 68-78 percent across seven base models, yielding consistent downstream reasoning gains of up to 6.6 points on in-distribution datasets with effective transfer to out-of-distribution tasks.

研究の動機と目的

LLMの推論を二値の嗜好を超えてより細かな整合へ動機づけ、実現する。
認知戦略を選択・実行するための二段階トレーニングパイプラインを提案する。
複数戦略下でのCU-DPOのサンプル効率と収束特性を理論的に確立する。

提案手法

K個の戦略を横断してスコアを集約する連続効用直接嗜好学習目的を定義する。
二値嗜好に対してTheta(K log K)のサンプル複雑性改善を証明する。
二段階トレーニングパイプライン：(i) 最良対全比較による戦略選択、(ii) マージン階層化ペアによる実行の精錬。
DPOがエントロピー正則化された効用最大化ポリシーへ収束することを示す収束解析。

実験結果

リサーチクエスチョン

RQ1連続的な効用信号は、二値嗜好と比較して複数のプロンプト戦略の選択を改善できるか。
RQ2K戦略を用いた場合のサンプル複雑性と収束特性はどうなるか。
RQ3CU-DPOは分布内推論と分布外推論の性能にどう影響するか。
RQ4二段階トレーニングパイプラインは数学的推論ベンチマークで実測可能な向上をもたらすか。

主な発見

戦略選択精度は7つのベースモデルで35–46%から68–78%へ改善。
分布内データセットでの下流推論利得が最大+6.6ポイント。
分布外タスクへの有効な転移のエビデンス。
CU-DPOは数学的推論ベンチマークで一貫した利得を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。