[论文解读] SurveyLens: A Research Discipline-Aware Benchmark for Automatic Survey Generation
SurveyLens 引入 SurveyLens-1k 和一个学科感知评估框架,以基于评尺的与规范对齐评估,在 10 个学科领域对自动调查生成(ASG)进行基准测试。
The exponential growth of scientific literature has driven the evolution of Automatic Survey Generation (ASG) from simple pipelines to multi-agent frameworks and commercial Deep Research agents. However, current ASG evaluation methods rely on generic metrics and are heavily biased toward Computer Science (CS), failing to assess whether ASG methods adhere to the distinct standards of various academic disciplines. Consequently, researchers, especially those outside CS, lack clear guidance on using ASG systems to yield high-quality surveys compliant with specific discipline standards. To bridge this gap, we introduce SurveyLens, the first discipline-aware benchmark evaluating ASG methods across diverse research disciplines. We construct SurveyLens-1k, a curated dataset of 1,000 high-quality human-written surveys spanning 10 disciplines. Subsequently, we propose a dual-lens evaluation framework: (1) Discipline-Aware Rubric Evaluation, which utilizes LLMs with human preference-aligned weights to assess adherence to domain-specific writing standards; and (2) Canonical Alignment Evaluation to rigorously measure content coverage and synthesis quality against human-written survey papers. We conduct extensive experiments by evaluating 11 state-of-the-art ASG methods on SurveyLens, including Vanilla LLMs, ASG systems, and Deep Research agents. Our analysis reveals the distinct strengths and weaknesses of each paradigm across fields, providing essential guidance for selecting tools tailored to specific disciplinary requirements.
研究动机与目标
- 创建一个大规模、高质量、跨学科的调查数据集(SurveyLens-1k),以支撑跨学科 ASG 评估。
- 提出一个学科感知的 rubric 评估,使用以偏好对齐权重的 LLM 判断来体现领域写作标准。
- 引入 Canonical Alignment Evaluation,以衡量事实依据和内容覆盖对人类撰写调查的对照。
- 提供可操作的洞见,比较不同 ASG 范式(普通 LLM、专业化系统、深度研究代理)在各学科的表现。
- 验证 SurveyLens 与人类专家判断的相关性,并通过学科需求引导工具选择。
提出的方法
- 构建 SurveyLens-1k,覆盖 10 个学科领域的 1,000 份人工撰写的调查(每个领域 100 份)。
- 将每份调查表示为结构化调查表示(SSR):大纲、内容与参考文献(O、C、R)。
- 通过两阶段扩展与合并过程从 SurveyLens-1k 派生学科特定 rubric,创建 A_c 和 K_{d,c,a},其提示记录在 Appendix 6。
- 使用 Bradley-Terry 模型对 rubric 各方面的偏好对齐权重进行学习,成对比较由强力 LLM(Gemini-3 Pro)执行。
- 以学科感知 rubric 评价生成的调查,并通过 RAMS 与 TAMS 指标进行规范对齐,评估覆盖与冗余。
- 在 10 个学科、100 个主题上基准测试 11 种 SOTA ASG 方法(Vanilla LLMs、Specialized ASG systems、Deep Research Agents)。

实验结果
研究问题
- RQ1当以学科特定规范评估时,ASG 方法在多样领域中的表现如何?
- RQ2在不同学科中,结构化组织与内容综合之间的权衡对不同 ASG 范式有何影响?
- RQ3数据源质量与领域聚焦在跨学科 ASG 表现中的影响有多大?
- RQ4学科感知 rubric 与 canonical alignment 指标是否与人类专家对 ASG 输出的评估一致?
主要发现
- Deep Research Agents 在所有学科中的表现普遍最高,而普通 LLMs 常处于最低位;Gemini Deep Research 往往在各领域领先。
- 数据源质量至关重要;使用经过筛选的学术数据库的系统优于依赖噪声源的系统。
- 学术型 ASG 系统在结构化组织方面表现出色,Deep Research Agents 在内容综合方面更强,体现了骨架与 flesh 的权衡。
- ASG 系统在 STEM 领域存在偏向(CS/工程)而普通 LLM 在人文与社会科学领域相对表现更好;Deep Research Agents 在各学科间实现平衡。
- 基于 RAMS 与 TAMS 的规范对齐显示事实基础与内容覆盖存在差异,整体对齐需要提高引用质量与结构化评估。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。