[論文レビュー] SurveyLens: A Research Discipline-Aware Benchmark for Automatic Survey Generation
SurveyLensはSurveyLens-1kと学際的な評価フレームワークを導入し、10の学問分野における自動調査生成(ASG)をルーブリックベースおよび有標準整合性評価でベンチマークします。
The exponential growth of scientific literature has driven the evolution of Automatic Survey Generation (ASG) from simple pipelines to multi-agent frameworks and commercial Deep Research agents. However, current ASG evaluation methods rely on generic metrics and are heavily biased toward Computer Science (CS), failing to assess whether ASG methods adhere to the distinct standards of various academic disciplines. Consequently, researchers, especially those outside CS, lack clear guidance on using ASG systems to yield high-quality surveys compliant with specific discipline standards. To bridge this gap, we introduce SurveyLens, the first discipline-aware benchmark evaluating ASG methods across diverse research disciplines. We construct SurveyLens-1k, a curated dataset of 1,000 high-quality human-written surveys spanning 10 disciplines. Subsequently, we propose a dual-lens evaluation framework: (1) Discipline-Aware Rubric Evaluation, which utilizes LLMs with human preference-aligned weights to assess adherence to domain-specific writing standards; and (2) Canonical Alignment Evaluation to rigorously measure content coverage and synthesis quality against human-written survey papers. We conduct extensive experiments by evaluating 11 state-of-the-art ASG methods on SurveyLens, including Vanilla LLMs, ASG systems, and Deep Research agents. Our analysis reveals the distinct strengths and weaknesses of each paradigm across fields, providing essential guidance for selecting tools tailored to specific disciplinary requirements.
研究の動機と目的
- 大規模で高品質、学際的な調査データセット(SurveyLens-1k)を作成し、横断的なASG評価の基盤とする。
- LLMベースの判断と好みに合わせた重み付けを使用して、分野固有の書式基準を反映する学際的ルーブリック評価を設計する。
- 人間が書いた調査に対する事実的な根拠付けと内容カバレッジを測るCanonical Alignment Evaluationを導入する。
- さまざまなASGパラダイム(バニラLLMs、専門システム、深層リサーチエージェント)が分野ごとにどのように性能を発揮するかについて実用的な洞察を提供する。
- SurveyLensが専門家の判断と相関し、分野別ニーズに基づくツール選択を導くことを検証する。
提案手法
- 10分野で各100件、計1,000の人間作成調査からなるSurveyLens-1kを構築する。
- 各調査をStructured Survey Representation(SSR):アウトライン、内容、参考文献(O、C、R)として表現する。
- SurveyLens-1kから分野別ルーブリックを2段階のプロセス(展開と統合)で派生させ、A_cとK_{d,c,a}を作成し、 Appendix 6にプロンプトを記録する。
- 強力なLLM(Gemini-3 Pro)によるペアワイズ比較でルーブリック要素の好みに合わせた重みをBradley-Terryモデルを用いて学習する。
- 分野対応のルーブリックを用いた生成調査をLLMジャッジで評価し、RAMSとTAMSの指標を用いてカノニカル整合性を評価し、カバレッジと冗長性を測定する。
- 11のSOTA ASG手法(Vanilla LLMs、Specialized ASG systems、Deep Research Agents)を10分野で100トピックに対してベンチマークする。

実験結果
リサーチクエスチョン
- RQ1ASG手法は多様な分野で分野特有の規範に対してどう評価されるか?
- RQ2構造的組織と内容総合のトレードオフは、分野ごとに異なるASGパラダイムでどう現れるか?
- RQ3データソースの品質とドメイン焦点は横断的なASG性能にどの程度影響するか?
- RQ4分野対応のルーブリックとCanonical Alignment指標はASG出力の人間専門家判断と一致するか?
主な発見
- Deep Research Agentsはすべての分野で一貫して最高の性能を達成する一方、バニラLLMsは最低ランクとなることが多い;Gemini Deep Researchが多くの分野でリードする。
- データソースの品質が決定的で、編纂された学術データベースを使用したシステムはノイズの多いソースに依存するシステムより優れている。
- 学術ASGシステムは構造的組織化に優れる一方、Deep Research Agentsは内容の総合化に優れ、スケルトン対 fleshのトレードオフを示す。
- ASGシステムはSTEMバイアスを示し(CS/工学で良い)、バニラLLMsは人文・社会科学で相対的に良い性能を示す傾向がある;Deep Research Agentsは分野間のバランスをとる。
- RAMSとTAMSベースのカノニカル整合性は事実的根拠付けと内容カバレッジの程度を示し、全体的な整合性には引用品質と構造化された評価の改善が必要である。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。