[論文レビュー] OffSeeker: Online Reinforcement Learning Is Not All You Need for Deep Research Agents
OffSeekerは、完全にオフラインのトレーニング(SFT + DPO)が、オープンソースのDeepForgeデータスイートと8Bパラメータモデルの支援を受けて、深層研究エージェントに対するオンライン-RLシステムと同等または対抗できることを示します。
Deep research agents have shown remarkable potential in handling long-horizon tasks. However, state-of-the-art performance typically relies on online reinforcement learning (RL), which is financially expensive due to extensive API calls. While offline training offers a more efficient alternative, its progress is hindered by the scarcity of high-quality research trajectories. In this paper, we demonstrate that expensive online reinforcement learning is not all you need to build powerful research agents. To bridge this gap, we introduce a fully open-source suite designed for effective offline training. Our core contributions include DeepForge, a ready-to-use task synthesis framework that generates large-scale research queries without heavy preprocessing; and a curated collection of 66k QA pairs, 33k SFT trajectories, and 21k DPO pairs. Leveraging these resources, we train OffSeeker (8B), a model developed entirely offline. Extensive evaluations across six benchmarks show that OffSeeker not only leads among similar-sized agents but also remains competitive with 30B-parameter systems trained via heavy online RL.
研究の動機と目的
- DeepForgeというオープンな統合フレームワークを提供することで、深層研究エージェント開発におけるデータとコストの障壁に対処する。
- オフライン学習を支援する大規模なオープンデータセットを公開する(QAペア、SFTトラジェクトリ、DPOペア)。
- オフラインで訓練された8Bパラメータのモデル(OffSeeker)が深層研究ベンチマークで競争力のある性能を発揮できることを示す。
- オンラインRLのコストを定量化し、オフライン学習がより低コストで再現性を高めつつ高い性能を達成できることを示す。
提案手法
- 実世界のウェブインタラクションを通じて大規模な深層研究タスクを合成する、エンドツーエンドの軽量なパイプラインとしてDeepForgeを導入する。
- DeepForge-QAを作成し、66k件の多段階ディープサーチ質問と真の回答を生成する。
- オフライン学習のために33kのSFTトラジェクトリと21kのDPOペアを収集する。
- OffSeeker(8B)を完全オフラインの教師付きファインチューニングの後、オフラインDPO(Direct Preference Optimization)で訓練する。
- GAIA、BrowseComp、HLE、XBench-DeepSearch、WebWalkerQAの6つの深層研究ベンチマークを、LLMジャッジを用いたpass@1で評価する。
- オフライン性能に対するコンテキストウィンドウサイズ、モデルスケーリング、およびデータ品質の影響を分析する。

実験結果
リサーチクエスチョン
- RQ1標準ベンチマークにおいて、オフライン訓練(SFT + DPO)は深層研究エージェントのオンラインRL性能と同等以上になり得るか?
- RQ2DeepForgeを介したデータ合成品質はオフライン学習成果にどのように影響するか?
- RQ3長期的推論を要する深層研究タスクにおけるコンテキストウィンドウサイズの影響は何か?
- RQ4高品質なオフラインデータで訓練された小型のオフラインモデルは、より広い深層研究タスクに一般化できるか?
主な発見
- OffSeekerは、同規模のエージェントの中でトップクラスの性能を達成し、オンラインRLで訓練された30Bパラメータのシステムに対抗する。
- SFT + DPOを用いたオフライン学習は、ベンチマーク(GAIA、BrowseComp-zh、BrowseComp-en、HLE、XBench-DeepSearch、WebWalkerQA)全体で一貫した改善を生む。
- オフライン法では訓練コストがほぼゼロに近く、オンラインRLに伴うAPIコストやレートリミットリスクを回避する。
- OffSeeker-8B(DPO)はBrowseComp-zhで26.6、WebWalkerQAで61.7に到達し、より大規模なオンラインRLシステムに近づく。
- DeepForgeによるデータ品質は効率的な学習を可能にする:より大きなSFTデータセットは精度を向上させ、オフラインデータは訓練とともにスケールする。
- コンテキストウィンドウサイズは性能に大きく影響し、より大きなコンテキストは複雑な多段階タスクで大きな利得をもたらす。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。