[논문 리뷰] SurveyLens: A Research Discipline-Aware Benchmark for Automatic Survey Generation
SurveyLens는 SurveyLens-1k와 10개 분야에 걸친 자동 설문 생성(ASG)을 벤치마크하기 위한 분야-맞춤 평가 프레임워크를 도입하며, 루브릭 기반 평가와 정합 정렬 평가를 활용합니다.
The exponential growth of scientific literature has driven the evolution of Automatic Survey Generation (ASG) from simple pipelines to multi-agent frameworks and commercial Deep Research agents. However, current ASG evaluation methods rely on generic metrics and are heavily biased toward Computer Science (CS), failing to assess whether ASG methods adhere to the distinct standards of various academic disciplines. Consequently, researchers, especially those outside CS, lack clear guidance on using ASG systems to yield high-quality surveys compliant with specific discipline standards. To bridge this gap, we introduce SurveyLens, the first discipline-aware benchmark evaluating ASG methods across diverse research disciplines. We construct SurveyLens-1k, a curated dataset of 1,000 high-quality human-written surveys spanning 10 disciplines. Subsequently, we propose a dual-lens evaluation framework: (1) Discipline-Aware Rubric Evaluation, which utilizes LLMs with human preference-aligned weights to assess adherence to domain-specific writing standards; and (2) Canonical Alignment Evaluation to rigorously measure content coverage and synthesis quality against human-written survey papers. We conduct extensive experiments by evaluating 11 state-of-the-art ASG methods on SurveyLens, including Vanilla LLMs, ASG systems, and Deep Research agents. Our analysis reveals the distinct strengths and weaknesses of each paradigm across fields, providing essential guidance for selecting tools tailored to specific disciplinary requirements.
연구 동기 및 목표
- 교차 학문 ASG 평가를 고정시키기 위한 대규모의 고품질, 분야를 넘나드는 설문 데이터셋(SurveyLens-1k)을 생성합니다.
- 도메인별 쓰기 표준을 반영하는 분야 인식 루브릭 평가를 개발하고, 선호에 맞춘 가중치를 갖는 LLM 기반 판단을 사용합니다.
- 사실적 기초와 콘텐츠 범위를 인간이 작성한 설문과 비교하여 측정하는 Canonical Alignment Evaluation을 도입합니다.
- 다양한 ASG 패러다임(바닐라 LLM, 특화 시스템, Deep Research Agents)이 분야별로 어떻게 수행되는지에 대한 실행 가능한 통찰력을 제공합니다.
- SurveyLens가 인간 전문가 판단과 상관관계가 있음을 검증하고 분야의 필요에 따라 도구 선택을 안내합니다.
제안 방법
- 10개 분야에 걸친 1,000개의 인간이 작성한 설문으로 구성된 SurveyLens-1k를 구축합니다(분야당 100개).
- 각 설문을 구조화된 설문 표현(SSR): 개요(O), 내용(C), 참고문헌(R)으로 표현합니다.
- SurveyLens-1k를 통해 두 단계 프로세스(확장 및 병합)로 분야별 루브릭을 도출하여 A_c 및 K_{d,c,a}를 생성하며 프롬프트는 부록 6에 문서화되어 있습니다.
- 강력한 LLM(Gemini-3 Pro)에 의한 쌍대 비교를 사용한 Bradley-Terry 모델로 루브릭 측면에 대한 선호에 맞춘 가중치를 학습합니다.
- LLM 판단자를 통해 분야 인식 루브릭으로 생성된 설문을 평가하고 RAMS와 TAMS 지표를 사용해 커버리지와 중복을 평가하는 Canonical Alignment를 수행합니다.
- 10개 분야에서 100개 주제에 대해 11개의 SOTA ASG 방법(Vanilla LLMs, Specialized ASG systems, Deep Research Agents)을 벤치마크합니다.

실험 결과
연구 질문
- RQ1다양한 분야에서 분야별 규범에 따라 평가될 때 ASG 방법은 어떻게 수행되나요?
- RQ2다양한 학문 간 구조적 구성과 콘텐츠 합성 간의 트레이드오프는 각 ASG 패러다임에서 어떻게 나타나나요?
- RQ3데이터 소스와 도메인 초점이 교차학문 ASG 성능에 어느 정도 영향을 미치나요?
- RQ4분야 인식 루브릭과 정합 정렬 지표가 ASG 출력 평가에서 인간 전문가 판단과 일치합니까?
주요 결과
- Deep Research Agents는 모든 분야에서 지속적으로 최고 성능을 달성하는 반면, Vanilla LLM들은 최하위를 차지합니다; Gemini Deep Research는 종종 모든 분야를 선도합니다.
- 데이터 소스 품질이 결정적이며, 선별된 학술 데이터베이스를 사용하는 시스템이 더 시끄러운 소스에 의존하는 시스템보다 우수합니다.
- 학술적 ASG 시스템은 구조적 구성에 뛰어나고, Deep Research Agents는 콘텐츠 합성에 뛰어나며 골격-살과의 트레이드오프를 시사합니다.
- ASG 시스템은 STEM 편향을 보이며(CS/Engineering에서 더 우수), 반면 Vanilla LLM은 인문학 및 사회과학에서 상대적으로 더 잘 작동합니다; Deep Research Agents는 학문 전반에서 균형을 이룹니다.
- RAMS 및 TAMS 기반의 정합 정렬은 사실적 근거와 콘텐츠 커버리지의 다양한 정도를 나타내며, 전반적인 정합은 인용 품질 개선과 체계적 평가가 필요합니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.