Skip to main content
QUICK REVIEW

[論文レビュー] Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

Yu Zhao, Haowen Yin|arXiv (Cornell University)|Nov 21, 2024
Semantic Web and Ontologies被引用数 5
ひとこと要約

Marco-o1 は Chain-of-Thought の微調整、モンテカルロ木探索、そして反省を組み合わせて、オープンエンドな課題の推論を拡張し、MGSM English/Chinese および翻訳での効果を示す一方、まだ完全に実現された o1 モデルではないことを認めている。

ABSTRACT

Currently OpenAI o1 sparks a surge of interest in the study of large reasoning models (LRM). Building on this momentum, Marco-o1 not only focuses on disciplines with standard answers, such as mathematics, physics, and coding -- which are well-suited for reinforcement learning (RL) -- but also places greater emphasis on open-ended resolutions. We aim to address the question: ''Can the o1 model effectively generalize to broader domains where clear standards are absent and rewards are challenging to quantify?'' Marco-o1 is powered by Chain-of-Thought (CoT) fine-tuning, Monte Carlo Tree Search (MCTS), reflection mechanisms, and innovative reasoning strategies -- optimized for complex real-world problem-solving tasks.

研究の動機と目的

  • 標準的な解答領域を超えたオープンエンド推論の探求を促す。
  • より広範な問題解決のために OpenAI o1 に触発されたオープン推論フレームワークを開発する。
  • 推論経路を強化するために CoT 微調整、MCTS、そして反省を統合する。
  • 多言語環境と翻訳タスクにおける有効性を示す。
  • 今後のオープンエンド推論研究を導くためにデータセットと方法論を共有する。

提案手法

  • Open-O1 CoT、Marco-o1 CoT、および Marco Instruction データセットを使用して Qwen2-7B-Instruct を微調整し、Marco-o1-CoT を形成する。
  • モンテカルロ木探索(MCTS)を用いて解析空間を拡張し、トークンレベルの信頼度ベース報酬で探索を導く。
  • MCTS 内の探索を豊かにするために、アクションの粒度を異なるもの(ステップ vs ミニステップ)を採用する。
  • 各思考の後に自己批評を促す反省メカニズムを導入し正確性を向上させる。
  • このアプローチを多言語設定と翻訳に適用して一般化を評価する。

実験結果

リサーチクエスチョン

  • RQ1o1-style の推論は、明確な基準や定量化可能な報酬がない領域に一般化できるか?
  • RQ2CoT 微調整、MCTS、反省を組み合わせると、多言語環境でのオープンエンドな問題解決が改善されるか?
  • RQ3アクションの粒度と反省は、オープンエンド推論における探索効率と正確性にどう影響するか?
  • RQ4Marco-o1 のスラングや口語表現における翻訳能力と制限は何か?

主な発見

  • Marco-o1-MCTS のバリアントは MGSM-English および MGSM-Chinese データセットで Marco-o1-CoT を上回り、解空間の拡張が正確性を向上させることを示している。
  • より細かなミニステップ(32 トークン)を使用すると、場合によって MGSM-Chinese の正確性がステップレベルのアクションより高くなる。
  • テスト結果は、予想回数を少なくしたほうが(Test@1)、MCTS の恩恵をより受けることを示しており、早期探索の利点を示唆している。
  • Marco-o1 は口語表現の翻訳能力が高く、スラング文脈で Google Translate を上回ることもある。
  • CoT データの English バイアスは非英語データセットへの転送性能を低下させる可能性があり、言語間転送の課題を浮き彫りにする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。