[論文レビュー] Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research
この論文は、構造化分解、超広範な検索、超深い調査を組み合わせたSuper Researchフレームワークを提案し、長期的な検索とグラフアンカー監査で300件の専門タスクを評価します。
While Large Language Models (LLMs) have demonstrated proficiency in Deep Research or Wide Search, their capacity to solve highly complex questions-those requiring long-horizon planning, massive evidence gathering, and synthesis across heterogeneous sources-remains largely unexplored. We introduce Super Research, a task for complex autonomous research tasks that integrates (i) structured decomposition into a research plan, (ii) super wide retrieval for diverse perspectives, and (iii) super deep investigation to resolve uncertainties through iterative queries. To evaluate this capability, we curated a benchmark of 300 expert-written questions across diverse domains, each requiring up to 100+ retrieval steps and 1,000+ web pages to reconcile conflicting evidence. Super Research produces verifiable reports with fine-grained citations and intermediate artifacts (e.g., outlines and tables) to ensure traceable reasoning. Furthermore, we present a graph-anchored auditing protocol that evaluates Super Research along five dimensions: Coverage, Logical Consistency, Report Utility, Objectivity and Citation Health. While super-complex questions may be infrequent in standard applications, Super Research serves as a critical ceiling evaluation and stress test for LLM capabilities. A model's proficiency within Super Research acts as a powerful proxy for its general research competence; success here suggests the robustness necessary to navigate nearly any subordinate research task. Leaderboard is available at: https://cnsdqd-dyb.github.io/Super-Research-Benchmark/
研究の動機と目的
- 高度に複雑で開放的な研究タスクに対して従来の深さや広さのアプローチを超えるLLMの必要性を動機づける。
- 長期的視点で多様な視点を統合するための三本柱フレームワーク(構造化分解、超広範な検索、超深い調査)を定義する。
- 専門家によって査定された300タスクのベンチマークを作成し、異種ソース全体からの広範な証拠収集と統合を要件とする。
- 生成報告の網羅性、一貫性、有用性、客観性、引用健全性を評価するグラフアンカー監査プロトコルを開発する。
提案手法
- クエリを研究タスクの有向無环グラフへ分解する階層ベースのタスク計画を提案する。
- 多様なソース全体を横断する広範な視点の網羅を確保するために超広範な検索を実装する。
- 不確実性を解消しデータポイントを検証するために繰り返しのフォローアップ問合せで超深い調査を適用する。
- URLにアンカー付けされた事実と洞察を抽出し、人間の介在で検証を refin して構造化研究グラフを構築する。
- 研究グラフを用いたライターによる canonical報告を生成し、報告から導出されたQA試験を有用性評価に用いる。
- カバレッジ、論理的一貫性、報告の有用性、客観性スコアをグラフアンカー監査ツールに結びつけて自動評価指標を導入する。

実験結果
リサーチクエスチョン
- RQ1現在のLLM駆動の研究システムは、長期的な計画と1000以上のソースからの統合を要する超複雑な問題を解決できるか。
- RQ2グラフアンカー監査フレームワークは長期的研究報告のカバレッジ、整合性、客観性、引用健全性を信頼性を持って評価できるか。
- RQ3最先端のDeep Research、Native Search-Integrated Agents、Search-AugmentedベースラインのSuper Researchベンチマークでのパフォーマンスの上限はどこにあるか。
- RQ4分解、検索範囲、反復的深掘りといった設計要素は研究報告の質と信頼性にどの程度影響するか。
- RQ5極端な研究タスク下で報告の有用性と客観性の間に測定可能なトレードオフはあるか。
主な発見
- Super Researchは依然として難易度の高いベンチマークであり、SOTAシステムでも総合スコアは29%未満。
- Gemini Deep Researchは評価されたシステムの中で平均総合スコアが最も高く(28.62)。
- カバレッジと一貫性は正の相関が見られるが、単に高いカバレッジだけでは深い論理的統合を保証しない。
- 防御的な客観性パターンは報告の有用性を低下させる可能性があり、安全性と領域特有の詳細のトレードオフを示唆する。
- 引用健全性の診断はモデル間での構造的依存性やソースの多様性の限界を示し、単一ソース依存のリスクを示す。
- グラフベースの評価指標は、品質変化を検出する際にLLMベースの審査より感度と一貫性が高いことを示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。