[論文レビュー] LLM-Generated or Human-Written? Comparing Review and Non-Review Papers on ArXiv
本論文はarXiv論文におけるLLM生成コンテンツの普及を定量化し、領域横断でレビュー論文と非レビュー論文を比較し、ChatGPTリリース前後のLLM使用の temporal-trendを分析する。またarXivの2025年 banの政策影響を検討する。2つの検出器とレビュー分類器を用いて、レビューでのLLM利用が高い一方、非レビュー論文では絶対数がはるかに大きいことを示す。
ArXiv recently prohibited the upload of unpublished review papers to its servers in the Computer Science domain, citing a high prevalence of LLM-generated content in these categories. However, this decision was not accompanied by quantitative evidence. In this work, we investigate this claim by measuring the proportion of LLM-generated content in review vs. non-review research papers in recent years. Using two high-quality detection methods, we find a substantial increase in LLM-generated content across both review and non-review papers, with a higher prevalence in review papers. However, when considering the number of LLM-generated papers published in each category, the estimates of non-review LLM-generated papers are almost six times higher. Furthermore, we find that this policy will affect papers in certain domains far more than others, with the CS subdiscipline Computers & Society potentially facing cuts of 50%. Our analysis provides an evidence-based framework for evaluating such policy decisions, and we release our code to facilitate future investigations at: https://github.com/yanaiela/llm-review-arxiv.
研究の動機と目的
- レビュー論文は非レビュー論文より高い割合でLLM生成コンテンツを含むかを評価する。
- ChatGPTリリース前後でLLM使用の時系列傾向を定量化する。
- アプリケーション範囲の違いとサブカテゴリの変動を評価し、arXivの未発表レビュー論文禁止の政策影響を検討する。
- 政策が学問分野やトピックごとに異なる影響を及ぼす可能性を評価する。
提案手法
- 高精度でレビュー対非レビュー論文を識別する分類器を用いた2段階アプローチを開発する(検証でF1=92.0%)。
- グループレベルおよび母集団レベルでLLM生成を推定するために2つのLLM生成検出器(Alpha estimatorとPangram)を適用する。
- Alphaベースの有病率推定値の偽陽性をRogan-Gladen補正で修正する。
- 2020–2025年のarXivデータセット(arxiv-domainsおよびcs-subcategories)をCS、数学、物理、統計学に Focusして分析する。
- Alphaの推定とPangramの標準誤差を30Kブートストラップサンプルで根拠づけて普遍性を評価する。
実験結果
リサーチクエスチョン
- RQ1arXivにおいてレビュー論文は非レビュー論文より高い割合のLLM生成コンテンツを含むか。
- RQ2特にChatGPTリリース後、LLM生成コンテンツの割合は時間とともにどう変化したか。
- RQ3分野およびCSサブカテゴリごとの採用パターンは政策影響にどう影響するか。
- RQ4非レビュー論文のLLM生成論文数の規模を考慮すると、arXivの禁止方針はどのような政策影響を及ぼすか。
主な発見
- レビュー論文はCSで非レビュー論文より高いLLM生成コンテンツの割合を示し、コホート長期補正後の推定値は21.4%対14.0%である。
- 2023–2025年のChatGPT後にCSでLLM生成コンテンツが急増:レビューは12.9%から28.2%、非レビューは6.2%から18.9%(Alpha)となった。
- Pangramはより大きな増加を検出:CSのレビューは7.4%から43.3%、非レビューは2.7%から23.3%(2022年以降)。”
- CSのサブカテゴリではComputers & Societyが最も高いレビュー率(49.2%)、Computations & Languageは比較的低い(9.4%)。
- 領域全体(CS、物理、数学、統計)ではAIの採用が2022年以降に増加する一方、領域間で異なるパターンがあり、全面的な禁止は一部のトピック(例:教育、安全)に過度に影響する可能性がある。
- 論文数を考慮すると、非レビューのLLM生成論文はレビュー論文をはるかに上回る(CSで2025年は約26,801対4,783)。レビューのみ禁止の妥当性に疑問を呈する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。