[论文解读] Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research
这篇论文提出了一个结合结构化分解、超宽检索与超深度调查的超级研究框架,用以解决高度复杂的问题,在300个专家任务、长时间检索和基于图的审计下进行评估。
While Large Language Models (LLMs) have demonstrated proficiency in Deep Research or Wide Search, their capacity to solve highly complex questions-those requiring long-horizon planning, massive evidence gathering, and synthesis across heterogeneous sources-remains largely unexplored. We introduce Super Research, a task for complex autonomous research tasks that integrates (i) structured decomposition into a research plan, (ii) super wide retrieval for diverse perspectives, and (iii) super deep investigation to resolve uncertainties through iterative queries. To evaluate this capability, we curated a benchmark of 300 expert-written questions across diverse domains, each requiring up to 100+ retrieval steps and 1,000+ web pages to reconcile conflicting evidence. Super Research produces verifiable reports with fine-grained citations and intermediate artifacts (e.g., outlines and tables) to ensure traceable reasoning. Furthermore, we present a graph-anchored auditing protocol that evaluates Super Research along five dimensions: Coverage, Logical Consistency, Report Utility, Objectivity and Citation Health. While super-complex questions may be infrequent in standard applications, Super Research serves as a critical ceiling evaluation and stress test for LLM capabilities. A model's proficiency within Super Research acts as a powerful proxy for its general research competence; success here suggests the robustness necessary to navigate nearly any subordinate research task. Leaderboard is available at: https://cnsdqd-dyb.github.io/Super-Research-Benchmark/
研究动机与目标
- 推动需要超越传统的深度或广度方法、以应对高度复杂、开放式研究任务的LLM需求的必要性。
- 定义一个三支柱框架(结构化分解、超级宽检索、超级深度调查),以实现长时间、多视角的综合。
- 创建一个300任务基准,包含由专家筛选的问题,需在异质来源中进行广泛证据收集与综合。
- 开发一个基于图的审计协议,以评估生成报告的覆盖性、一致性、实用性、客观性和引文健康度。
提出的方法
- 提出一个基于层次的任务规划,将查询分解为一个有向无环图的研究任务。
- 实现超级宽检索,以确保跨多源的广泛、多视角覆盖。
- 对超级深度调查应用迭代的后续查询,以解决不确定性并核验数据点。
- 通过从URL锚定的事实与洞见提取,构建结构化研究图并在人工在环验证下 refine。
- 由写作者使用研究图生成范式报告,并从报告中衍生QA考试以用于实用性评估。
- 引入自动评估指标(覆盖性、逻辑一致性、报告实用性、客观性评分,连接到基于图的审计工具)。

实验结果
研究问题
- RQ1当前的LLM驱动研究系统在解决需要长时间规划与来自1000+来源的综合的超级复杂问题方面有多大能力?
- RQ2基于图的审计框架是否能可靠评估长时间研究报告的覆盖、连贯性、客观性与引用健康度?
- RQ3在超级研究基准上,最先进的深度研究、原生搜索集成代理和搜索增强基线的性能上限是什么?
- RQ4哪些设计要素(分解、检索广度、迭代深化)对研究报告的质量与可靠性影响最大?
- RQ5在极端研究任务下,报告的实用性与客观性之间是否存在可衡量的权衡?
主要发现
- 超级研究仍是一个高难基准;即使是SOTA系统的总分也低于29%。
- Gemini Deep Research在被评估的系统中取得了最高的平均总分(28.62)。
- 覆盖率与一致性呈正相关,但单纯高覆盖并不保证深度逻辑综合。
- 防守性客观性模式可能降低报告实用性,显示安全性与领域细节之间的权衡。
- 引文健康诊断揭示模型在源头结构上的依赖性或来源多样性不足的风险,提示对单一来源的依赖风险。
- 基于图的评估指标在检测质量变化时比基于LLM的评审更具敏感性和一致性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。