[論文レビュー] Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs
CPOはTree-of-Thought探索からの各ステップの好ましい/非好ましい思考を用いてLLMsを微調整し、ToTよりはるかに低い推論レイテンシでChain-of-Thought推論を改善します。
The recent development of chain-of-thought (CoT) decoding has enabled large language models (LLMs) to generate explicit logical reasoning paths for complex problem-solving. However, research indicates that these paths are not always deliberate and optimal. The tree-of-thought (ToT) method employs tree-searching to extensively explore the reasoning space and find better reasoning paths that CoT decoding might overlook. This deliberation, however, comes at the cost of significantly increased inference complexity. In this work, we demonstrate that fine-tuning LLMs leveraging the search tree constructed by ToT allows CoT to achieve similar or better performance, thereby avoiding the substantial inference burden. This is achieved through Chain of Preference Optimization (CPO), where LLMs are fine-tuned to align each step of the CoT reasoning paths with those of ToT using the inherent preference information in the tree-search process. Extensive experimental results show that CPO significantly improves LLM performance in solving a variety of complex problems, including question answering, fact verification, and arithmetic reasoning, demonstrating its effectiveness. Our code is available at https://github.com/sail-sg/CPO.
研究の動機と目的
- 最終パスを超えた ToT由来の好みを取り入れることで、Chain-of-Thought推論の改善を動機づける。
- 監督のために、tree-search プロセスを活用して各ステップの好み情報を抽出する。
- 各ステップで好ましい思考と非好ましい思考を直接最適化するトレーニング目的を開発する。
- 追加の推論レイテンシなしで、QA、ファクト検証、算術推論の各タスクでCPOが顕著な成果をもたらすことを示す。
提案手法
- ToT search tree から複数の思考を各ステップで生成して、好みの思考の連鎖を構築する。
- LLMで各思考を評価して進捗スコアを割り当て、BFS剪定で上位n思考を選択する。
- 各ステップで好ましい思考とその非好ましい兄弟を対にして、各ステップの per-step preference data を作成する。
- Direct Preference Optimization (DPO) 目的で LLM を訓練し、好ましい思考 vs. 非好ましい思考の尤度比を最大化する。
- LoRA-fine-tuned LLMs を用いた複数のデータセットとベースモデルで、CPO を CoT、ToT、TS-SFT と比較する。
実験結果
リサーチクエスチョン
- RQ1各ステップの好み監督は、チェーン・オブ・思考推論の改善のための全経路監督より有利性を提供しますか?
- RQ2CPO はかなり低い推論レイテンシで ToT に似た利益を達成できるか?
- RQ3CPO は異なる推論タスク(QA、ファクト検証、算術)およびモデルサイズを横断して堅牢ですか?
主な発見
- CPO はタスクとモデル全体で平均 accuracy を 4.3% 向上させ、最大で 9.7% となる。
- CPO は ToT と同等またはそれ以上の性能を達成し、推論レイテンシははるかに低く(平均して 57.5 倍高速)。”
- CPO は平均で TS-SFT を 2.7% 上回し、場合によっては最大で 10.3% 上回る。これは好ましい思考と非好ましい思考の両方を活用するため。
- 各ステップの好みデータは有益であり、トレーニング中の非好ましいデータの割合を増やすと一貫して性能が向上する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。