[논문 리뷰] Mapping the Increasing Use of LLMs in Scientific Papers
본 논문은 2020–2024년 arXiv, bioRxiv, Nature 포트폴리오 논문들의 초록과 서론에서 LLM으로 수정된 콘텐츠의 인구 수준 비율을 추정하고, ChatGPT 이후 급격한 증가를 보이며 CS가 주도하고 수학/Nature 포트폴리오가 후행한다는 것을 보여준다.
Scientific publishing lays the foundation of science by disseminating research findings, fostering collaboration, encouraging reproducibility, and ensuring that scientific knowledge is accessible, verifiable, and built upon over time. Recently, there has been immense speculation about how many people are using large language models (LLMs) like ChatGPT in their academic writing, and to what extent this tool might have an effect on global scientific practices. However, we lack a precise measure of the proportion of academic writing substantially modified or produced by LLMs. To address this gap, we conduct the first systematic, large-scale analysis across 950,965 papers published between January 2020 and February 2024 on the arXiv, bioRxiv, and Nature portfolio journals, using a population-level statistical framework to measure the prevalence of LLM-modified content over time. Our statistical estimation operates on the corpus level and is more robust than inference on individual instances. Our findings reveal a steady increase in LLM usage, with the largest and fastest growth observed in Computer Science papers (up to 17.5%). In comparison, Mathematics papers and the Nature portfolio showed the least LLM modification (up to 6.3%). Moreover, at an aggregate level, our analysis reveals that higher levels of LLM-modification are associated with papers whose first authors post preprints more frequently, papers in more crowded research areas, and papers of shorter lengths. Our findings suggests that LLMs are being broadly used in scientific writings.
연구 동기 및 목표
- 여러 플랫폼에 걸쳐 과학적 글쓰기에서 AI-수정(LLM-수정) 콘텐츠의 인구 수준 확산을 정량화한다.
- 2020년부터 2024년까지 LLM 사용의 시간적 경향을 추적하여 분야별·저널별 동태를 이해한다.
- 사전 인쇄(preprint) 활동, 분야 혼잡, 논문 길이와 같은 더 높은 LLM 사용과의 상관 요인을 식별한다.
- 문서별 분류에 의존하지 않는 LLM 수정의 인구 수준 추정 프레임워크를 확장 가능한 방식으로 개발하고 검증한다.
제안 방법
- 초록과 서론 문장의 LLM 수정 콘텐츠 비율을 추정하기 위해 분포적 GPT 정량화 프레임워크를 적용한다.
- 토큰 집합 T와 발생 확률 p_t, q_t를 사용하여 사람 작성 텍스트와 LLM-수정 텍스트의 토큰 수준 분포를 모델링한다.
- 알려진 사람 작성 문서와 LLM-수정 문서의 모음에서 p_t와 q_t를 추정한다.
- 모수 hat{P}_T와 hat{Q}_T를 갖는 혼합 모델 D_alpha에서 대수가능도(log-likelihood)를 최대화하여 AI-수정 비율 alpha를 추론한다.
실험 결과
연구 질문
- RQ12020년에서 2024년 사이 arXiv, bioRxiv, Nature 포트폴리오 논문들의 과학적 초록과 서론에서 LLM-수정 콘텐츠의 인구 수준 보편성은 무엇인가?
- RQ2다양한 학문 분야에서 LLM-수정 보편성은 시간에 따라 어떻게 진화하며 어떤 저널에서 가장 큰 성장을 보이는가?
- RQ3더 높은 LLM 사용과 상관 관계가 있는 저자-필드-논문 수준 요인은 무엇인가?
- RQ4문서 수준 라벨링에 의존하지 않고 시간 분포의 변화에도 견고하게 LLM-수정 콘텐츠를 감지하는 인구 수준 추정 프레임워크가 있는가?
주요 결과
- LLM-수정 콘텐츠의 지속적인 증가가 관찰되며, Computer Science가 가장 큰 성장을 보이는 것으로 나타났고(초록에서 alpha 최대 17.5%, 서론에서 15.3%까지), 2024년 2월까지 확인되었다.
- 수학 논문과 Nature 포트폴리오는 가장 적은 증가를 보였으며(초록 4.9%, 6.3%까지, 서론 3.5%, 6.4%까지),
- 첫 번째 저자가 더 많은 사전인쇄를 게시한 논문은 LLM-수정 비율이 더 높았다(예: CS 초록 19.3% 대 15.6% for >=3 vs <=2 사전인쇄).
- 가까운 동료와 더 유사한 논문일수록 LLM 사용이 더 높았다(CS 초록 22.2% 대 14.7% for more vs less similar).
- 짧은 논문일수록 긴 논문보다 LLM 사용이 더 높았다(CS 초록 17.7% 대 13.6%).
- ChatGPT(2022년 11월) 이전의 추정치는 하한선과 일치한다(CS 초록 2.3%, EE&SS 2.9%, Math 2.4%, Nature 3.1%).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.