QUICK REVIEW

[論文レビュー] Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

Weixin Liang, Zachary Izzo|arXiv (Cornell University)|Mar 11, 2024

Artificial Intelligence in Healthcare and Education被引用数 63

ひとこと要約

この論文は、コーパス内のテキストがAIによって大幅に改変または生成された割合を推定するスケーラブルな最大尤度法を紹介し、ChatGPTリリース後のML系会議の査読に適用。その結果、ICLR、NeurIPS、EMNLPの査読でAI改変の増加が測定可能であったが、Nature誌では見られなかった。

ABSTRACT

We present an approach for estimating the fraction of text in a large corpus which is likely to be substantially modified or produced by a large language model (LLM). Our maximum likelihood model leverages expert-written and AI-generated reference texts to accurately and efficiently examine real-world LLM-use at the corpus level. We apply this approach to a case study of scientific peer review in AI conferences that took place after the release of ChatGPT: ICLR 2024, NeurIPS 2023, CoRL 2023 and EMNLP 2023. Our results suggest that between 6.5% and 16.9% of text submitted as peer reviews to these conferences could have been substantially modified by LLMs, i.e. beyond spell-checking or minor writing updates. The circumstances in which generated text occurs offer insight into user behavior: the estimated fraction of LLM-generated text is higher in reviews which report lower confidence, were submitted close to the deadline, and from reviewers who are less likely to respond to author rebuttals. We also observe corpus-level trends in generated text which may be too subtle to detect at the individual level, and discuss the implications of such trends on peer review. We call for future interdisciplinary work to examine how LLM use is changing our information and knowledge practices.

研究の動機と目的

AI支援テキストのコーパスレベルでの利用を、個々の文書レベルの分類だけでなく測定する必要性を動機づける。
大規模なテキストコーパスにおけるAI生成コンテンツの割合を推定する、スケーラブルな統計フレームワークを開発する。
このフレームワークをトップML会議の査読に適用して、ChatGPT後の傾向を観察する。

提案手法

問題を、(1-α)P + αQ の混合比率 α を推定する問題として定式化する。ここでPは人間が書いたテキスト、QはAI生成テキスト。
各文書をトークン出現（形容詞）の集合として表現し、トークン出現頻度からP(t)とQ(t)を推定する。
対数尤度 L(α) = sum log((1-α)P(x_i) + αQ(x_i)) を用いた最大尤度推定を行う。
人間が書いたレビューや論文をプロンプトしてAI生成コーパスを作成し、PとQを推定するトレーニングデータを生成する。
全文書の尤度ではなく、トークン出現頻度からPとQを推定することで、実用性とロバスト性を向上させる。
セミ合成ターゲットで方法を検証するために、人間・AIの検証コーパスからサンプリングしてα推定を検証する。

実験結果

リサーチクエスチョン

RQ1ChatGPT後、主要なML会議の査読テキストのうち、どれくらいが実質的にAI生成またはAI改変されたものか？
RQ2コーパスレベルのAI改変テキストのパターンは、規模に応じて査読者の振る舞いと内容の質とどう関連するか？
RQ3会議やジャーナルのドメインシフトやプロンプトバリエーションに対して方法は頑健か？
RQ4単なる校閲と実質的なAI改変を区別できるか？
RQ5AI生成コンテンツに伴うコーパスレベルの信号（例：埋め込み空間の均質化）は何か？

主な発見

AI改変コンテンツの推定比率αはChatGPT後にML系会議で上昇した。ICLR 2024の査読では約10.6%、EMNLPでは約16.9%の査読が実質的なAI改変を含むと推定され、Natureの査読では有意な変化は見られなかった。
締切日までの3日以内に提出された査読でAI使用が高い「締切効果」が存在する。
scholarly引用を含む（例: “et al.”を含む）査読は、引用がないものよりAI使用推定値が低い。
著者の返信活動が少ない査読は、AI使用推定値が高い傾向がある。
推定されるAI改変の高さは、レビューの埋め込み空間の均質化と相関し、個々の文書を超えたコーパスレベルの効果を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。