[论文解读] SciZoom: A Large-scale Benchmark for Hierarchical Scientific Summarization across the LLM Era
SciZoom 是一个覆盖四个 ML/NLP 期刊/会议(44,946 篇论文)的分层基准,支持多粒度摘要与科学写作在生成式 AI 时代的时序分析,涵盖 Pre- 与 Post-LLM 的时期。它引入了三层级摘要目标和贡献提取管线,以及对写作演化的语言分析。
The explosive growth of AI research has created unprecedented information overload, increasing the demand for scientific summarization at multiple levels of granularity beyond traditional abstracts. While LLMs are increasingly adopted for summarization, existing benchmarks remain limited in scale, target only a single granularity, and predate the LLM era. Moreover, since the release of ChatGPT in November 2022, researchers have rapidly adopted LLMs for drafting manuscripts themselves, fundamentally transforming scientific writing, yet no resource exists to analyze how this writing has evolved. To bridge these gaps, we introduce SciZoom, a benchmark comprising 44,946 papers from four top-tier ML venues (NeurIPS, ICLR, ICML, EMNLP) spanning 2020 to 2025, explicitly stratified into Pre-LLM and Post-LLM eras. SciZoom provides three hierarchical summarization targets (Abstract, Contributions, and TL;DR) achieving compression ratios up to 600:1, enabling both multi-granularity summarization research and temporal mining of scientific writing patterns. Our linguistic analysis reveals striking shifts in phrase patterns (up to 10x for formulaic expressions) and rhetorical style (23% decline in hedging), suggesting that LLM-assisted writing produces more confident yet homogenized prose. SciZoom serves as both a challenging benchmark and a unique resource for mining the evolution of scientific discourse in the generative AI era. Our code and dataset are publicly available on GitHub (https://github.com/janghana/SciZoom) and Hugging Face (https://huggingface.co/datasets/hanjang/SciZoom), respectively.
研究动机与目标
- 提供一个大规模、时间分层的跨 LLM 时代的分层科学摘要基准。
- 实现多粒度摘要(摘要、贡献、TL;DR)并具备强压缩比。
- 开发一个鲁棒的管线以在各期刊/会议中提取贡献,覆盖率高。
- 分析因 LLM 时代写作实践而引发的科学写作语言变化。
- 支持对科学话语演化的时间性挖掘以及跨时代模型评估。
提出的方法
- 选取四个顶级会议/期刊(NeurIPS、ICLR、ICML、EMNLP)在 2020–2025 的 44,946 篇论文,并按 2022 年 11 月前后划分为 Pre-LLM 与 Post-LLM 时代。
- 定义四层级层次结构(Full text、Abstract、Contributions、TL;DR)以及一个统一的多目标摘要任务,从全文生成摘要、贡献和 TL;DR。
- 实现三阶段的贡献提取管线:基于规则的标记检测、LLM 验证、以及对缺少明确贡献章节的论文进行生成式综合。
- 提取作者提供的摘要和 TL;DR;在可用时收集 TL;DR,并生成其他部分以确保贡献的 100% 覆盖。
- 在三个任务(摘要、贡献、TL;DR)上使用多种开源大型语言模型进行零-shot 评估,采用词汇、语义和嵌入等指标(ROUGE、BLEU、METEOR、BERTScore)。
- 进行跨时代与跨粒度分析,包括嵌入相似性、检索保真度和语言模式(公式化短语、模糊化表达)的研究。
实验结果
研究问题
- RQ1如何在 LLM 时代构建一个分层且时间分层的科学摘要基准?
- RQ2单一模型能否从全文在不同领域和时间段内生成连贯的摘要、贡献和 TL;DR?
- RQ3LLM 助力的作者创作兴起对科学写作在不同粒度和时代下的语言变动有何体现?
- RQ4生成的摘要在不同压缩等级下能否保留语义内容,模型能否在 Pre-LLM 与 Post-LLM 语料上具备泛化性?
- RQ5在评估 Pre- vs. Post-LLM 数据时,跨时代的科学 NLP 系统鲁棒性有哪些影响?
主要发现
- SciZoom 在四个粒度层面实现最高达 600:1 的压缩比。
- 三阶段管线实现了对整个语料库贡献的 100% 覆盖。
- Post-LLM 论文总体全文长度更长,TL;DR 的采用率更高,体现写作实践的演变。
- Post-LLM 摘要中公式化短语显著增加(某些三元组多达 10 倍)。
- 模糊化表达在 Pre-LLM 到 Post-LLM 的 decline 约 23%,而明确断言语言保持稳定。
- 跨时代嵌入相似性显示 Pre 与 Post-LLM 间差距较小,表明语义内容在表层变化下仍然稳健。
- 跨粒度检索显示 TL;DR、摘要与贡献之间高度对齐,且模型生成的摘要接近真实答案的表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。