Skip to main content
QUICK REVIEW

[論文レビュー] SciZoom: A Large-scale Benchmark for Hierarchical Scientific Summarization across the LLM Era

Han Jang, Junhyeok Lee|arXiv (Cornell University)|Mar 17, 2026
Topic Modeling被引用数 0
ひとこと要約

SciZoomは、4つのML/NLP会場に跨る大規模な階層型ベンチマーク(44,946論文)。Pre-LLM時代とPost-LLM時代の科学的文章の多粒度要約と時系列分析を可能にする。3レベルの要約目標と貢献抽出パイプラインを導入し、生成AIによる執筆の進化に関する言語学的分析を提供する。

ABSTRACT

The explosive growth of AI research has created unprecedented information overload, increasing the demand for scientific summarization at multiple levels of granularity beyond traditional abstracts. While LLMs are increasingly adopted for summarization, existing benchmarks remain limited in scale, target only a single granularity, and predate the LLM era. Moreover, since the release of ChatGPT in November 2022, researchers have rapidly adopted LLMs for drafting manuscripts themselves, fundamentally transforming scientific writing, yet no resource exists to analyze how this writing has evolved. To bridge these gaps, we introduce SciZoom, a benchmark comprising 44,946 papers from four top-tier ML venues (NeurIPS, ICLR, ICML, EMNLP) spanning 2020 to 2025, explicitly stratified into Pre-LLM and Post-LLM eras. SciZoom provides three hierarchical summarization targets (Abstract, Contributions, and TL;DR) achieving compression ratios up to 600:1, enabling both multi-granularity summarization research and temporal mining of scientific writing patterns. Our linguistic analysis reveals striking shifts in phrase patterns (up to 10x for formulaic expressions) and rhetorical style (23% decline in hedging), suggesting that LLM-assisted writing produces more confident yet homogenized prose. SciZoom serves as both a challenging benchmark and a unique resource for mining the evolution of scientific discourse in the generative AI era. Our code and dataset are publicly available on GitHub (https://github.com/janghana/SciZoom) and Hugging Face (https://huggingface.co/datasets/hanjang/SciZoom), respectively.

研究の動機と目的

  • LLM時代の階層的科学要約のための大規模で時系列的に階層化されたベンチマークを提供する。
  • 強力な圧縮率を用いた抽象(Abstract)、貢献(Contributions)、TL;DRを含むマルチ粒度要約を実現する。
  • 高カバレッジを持つ会場横断の貢献抽出パイプラインを開発する。
  • LLM時代の実践によって生じた科学的執筆の言語的変化を分析する。
  • 科学的ディスコースの進化と異なる時代間モデル評価の時系列マイニングを支援する。

提案手法

  • NeurIPS、ICLR、ICML、EMNLPの4つのトップ会場から2020–2025年の論文44,946件を収集し、2022年11月を境にPre-LLMとPost-LLM時代に Partition する。
  • 全文、Abstract、Contributions、TL;DR の4段階階層を定義し、Full textからAbstract、Contributions、TL;DRを生成する統一的なマルチターゲット要約タスクを設定する。
  • 3段階の貢献抽出パイプラインを実装:ルールベースのマーカ検出、LLMベースの検証、貢献節が明示されていない論文の生成的統合。
  • 著者提供のAbstractとTL;DRを抽出し、利用可能なTL;DRを収集して残りを生成して貢献の100%カバレッジを確保する。
  • ゼロショット要約を複数のオープンソースLLMで3つのタスク(Abstract、Contrib、TL;DR)に対して評価し、語彙・意味・埋め込みベースの指標(ROUGE、BLEU、METEOR、BERTScore)で測る。
  • 埋め込み類似、検索忠実度、言語パターン(定型句、慎重表現)を含む跨時代・跨粒度分析を実施する。

実験結果

リサーチクエスチョン

  • RQ1LLM時代における科学要約のための階層的で時系列的なベンチマークをどのように構築できるか。
  • RQ2単一モデルで全文から多様な会場・時期を跨ぐ一貫したAbstract、Contributions、TL;DRを生成できるか。
  • RQ3LLM支援作成の台頭に伴う科学執筆の言語的変化は、粒度レベルと時代を超えてどのようなものか。
  • RQ4生成要約が圧縮レベルを超えて意味内容を保持するか、Pre-LLMとPost-LLMコーパス間でモデルが一般化するか。
  • RQ5Pre-LLM対Post-LLMデータの評価時に科学 NLPシステムの跨時代ロバスト性にはどのような意味があるか。

主な発見

  • SciZoomは4つの粒度レベルで最大600:1の圧縮率を実現。
  • コーパス全体を対象とした貢献の完全カバレッジを達成する3段階パイプライン(100%)。
  • Post-LLM論文は全文が長くなり、TL;DRの採用が増加しており、執筆慣行が進化していることを示唆。
  • Post-LLMのAbstractには定型句が劇的に現れ、いくつかの3語句で最大10倍に。
  • Pre-LLMからPost-LLMへかけて慎重表現が約23%減少し、断定的表現は安定。
  • 跨時代の埋め込み類似性はPre vs Post-LLM間の差が最小で、表面的な変化にも関わらず意味內容は安定。
  • 跨粒度の検索はTL;DR、Abstract、Contributionsの間で高い整合を示し、モデル生成要約がほぼ真の性能を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。