QUICK REVIEW

[논문 리뷰] SciZoom: A Large-scale Benchmark for Hierarchical Scientific Summarization across the LLM Era

Han Jang, Junhyeok Lee|arXiv (Cornell University)|2026. 03. 17.

Topic Modeling인용 수 0

한 줄 요약

SciZoom은 네 개의 ML/NLP venue에 걸친 대규모 계층적 벤치마크(44,946편의 논문)로, Pre-LLM 및 Post-LLM 시대에 걸친 과학 글쓰기의 다중 수준 요약 및 시계열 분석을 가능하게 한다. 이것은 세 수준의 요약 목표와 기여 추출 파이프라인을 도입하고, 생성형 AI로 인한 글쓰기 진화에 대한 언어 분석을 제공한다.

ABSTRACT

The explosive growth of AI research has created unprecedented information overload, increasing the demand for scientific summarization at multiple levels of granularity beyond traditional abstracts. While LLMs are increasingly adopted for summarization, existing benchmarks remain limited in scale, target only a single granularity, and predate the LLM era. Moreover, since the release of ChatGPT in November 2022, researchers have rapidly adopted LLMs for drafting manuscripts themselves, fundamentally transforming scientific writing, yet no resource exists to analyze how this writing has evolved. To bridge these gaps, we introduce SciZoom, a benchmark comprising 44,946 papers from four top-tier ML venues (NeurIPS, ICLR, ICML, EMNLP) spanning 2020 to 2025, explicitly stratified into Pre-LLM and Post-LLM eras. SciZoom provides three hierarchical summarization targets (Abstract, Contributions, and TL;DR) achieving compression ratios up to 600:1, enabling both multi-granularity summarization research and temporal mining of scientific writing patterns. Our linguistic analysis reveals striking shifts in phrase patterns (up to 10x for formulaic expressions) and rhetorical style (23% decline in hedging), suggesting that LLM-assisted writing produces more confident yet homogenized prose. SciZoom serves as both a challenging benchmark and a unique resource for mining the evolution of scientific discourse in the generative AI era. Our code and dataset are publicly available on GitHub (https://github.com/janghana/SciZoom) and Hugging Face (https://huggingface.co/datasets/hanjang/SciZoom), respectively.

연구 동기 및 목표

LLM 시대에 걸친 계층적 과학 요약을 위한 대규모의 시계열로 구분된 벤치마크를 제공한다.
강한 압축비를 갖춘 다중 수준 요약(초록, 기여, TL;DR)을 가능하게 한다.
다양한 학회에서 높은 커버리지를 갖도록 기여를 추출하는 강력한 파이프라인을 개발한다.
LLM 시대의 실천에 의해 유발된 과학 글쓰기의 언어적 변화를 분석한다.
과학 담론의 진화의 시계열 마이닝과 시대 간 모델 평가를 지원한다.

제안 방법

2020–2025에 걸친 네 개의 최상위 학회(NeurIPS, ICLR, ICML, EMNLP)의 44,946편의 논문을 모아 2022년 11월을 전후로 Pre-LLM와 Post-LLM 시대를 구분한다.
전체 텍스트, 초록, 기여, TL;DR로 구성된 4단계 계층 구조와 전체 텍스트에서 초록, 기여, TL;DR를 생성하는 통합 다중 대상 요약 작업을 정의한다.
명시적 기여 섹션이 없는 논문에 대해 규칙 기반 마커 탐지, LLM 기반 검증, 생성적 합성을 포함한 3단계 기여 추출 파이프라인을 구현한다.
저자 제공 초록과 TL;DR를 추출하고, 사용 가능한 TL;DR를 수집하며 나머지를 생성하여 기여의 100% 커버리지가 되도록 한다.
세 가지 작업(초록, 기여, TL;DR)에 대해 다수의 오픈 소스 LLM을 활용한 제로샷 요약을 평가하고, 어휘적, 의미론적, 임베딩 기반 지표(ROUGE, BLEU, METEOR, BERTScore)를 사용한다.
임베딩 유사도, 검색 정확도, 언어 패턴(상투적 구절, 완곡한 표현) 등을 포함한 시대 간 및 다중 수준 분석을 수행한다.

실험 결과

연구 질문

RQ1LLM 시대에 과학 요약을 위한 계층적이고 시계열로 구획된 벤치마크를 어떻게 구축할 수 있는가?
RQ2다양한 학회와 시기에 걸친 전체 텍스트에서 일관된 초록, 기여, TL;DR를 생성할 수 있는 단일 모델이 있는가?
RQ3LLM 보조 저술의 상승에 따라 다양한 수준과 시대에서 과학 글쓰기의 언어적 변화는 무엇인가?
RQ4생성된 요약이 압축 수준에 따라 의미 내용을 보존하는가, 그리고 모델이 Pre-LLM과 Post-LLM 코퍼스에 걸쳐 일반화되는가?
RQ5Pre-LLM 대 Post-LLM 데이터로 평가할 때 과학 NLP 시스템의 시대 간 강건성에 대한 시사점은 무엇인가?

주요 결과

SciZoom은 네 가지 다층 수준에서 최대 600:1의 압축비를 가능하게 한다.
3단계 파이프라인은 코퍼스 전반의 기여에 대해 완전한 커버리지(100%)를 달성한다.
Post-LLM 논문은 평균적으로 전체 텍스트가 더 길고 TL;DR 채택이 더 높아, 진화하는 글쓰기 관행을 시사한다.
Post-LLM 초록에서 상투적 어구가 급격히 나타나며 일부 삼그램에서 최대 10배까지 증가한다.
완곡한 표현은 Pre-LLM에서 Post-LLM으로 약 23% 감소하는 반면 단정적 표현은 안정적으로 유지된다.
시대 간 임베딩 유사도는 Pre-LLM과 Post-LLM 간 차이가 최소로 나타나 표면적 변화에도 불구하고 의미 내용은 안정적임을 시사한다.
다중 수준 간 검색은 TL;DR, 초록, 기여 간의 높은 정렬성을 보여주며, 모델 생성 요약이 거의 실제 정답에 근접한 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.