[논문 리뷰] The AI Review Lottery: Widespread AI-Assisted Peer Reviews Boost Paper Scores and Acceptance Rates
본 연구는 AI-지원 동료 심사가 ICLR 2024에서 얼마나 만연했는지 정량화하고, AI-지원 심사는 제출 점수를 높이고 합격률을 증가시키는 경향이 있으며, 특히 경계선 논문에서 더 큰 효과를 보였음을 발견했다.
Journals and conferences worry that peer reviews assisted by artificial intelligence (AI), in particular, large language models (LLMs), may negatively influence the validity and fairness of the peer-review system, a cornerstone of modern science. In this work, we address this concern with a quasi-experimental study of the prevalence and impact of AI-assisted peer reviews in the context of the 2024 International Conference on Learning Representations (ICLR), a large and prestigious machine-learning conference. Our contributions are threefold. Firstly, we obtain a lower bound for the prevalence of AI-assisted reviews at ICLR 2024 using the GPTZero LLM detector, estimating that at least $15.8\%$ of reviews were written with AI assistance. Secondly, we estimate the impact of AI-assisted reviews on submission scores. Considering pairs of reviews with different scores assigned to the same paper, we find that in $53.4\%$ of pairs the AI-assisted review scores higher than the human review ($p = 0.002$; relative difference in probability of scoring higher: $+14.4\%$ in favor of AI-assisted reviews). Thirdly, we assess the impact of receiving an AI-assisted peer review on submission acceptance. In a matched study, submissions near the acceptance threshold that received an AI-assisted peer review were $4.9$ percentage points ($p = 0.024$) more likely to be accepted than submissions that did not. Overall, we show that AI-assisted reviews are consequential to the peer-review process and offer a discussion on future implications of current trends
연구 동기 및 목표
- ICLR 2024에서 AI-지원 동료 심사가 얼마나 널리 퍼져 있었는지 평가한다.
- AI-지원 심사와 점수 사이의 인과 효과를 추정한다.
- AI-지원 심사와 논문 수락율 사이의 인과 효과를 추정한다.
- 분석을 재현하고 확장하기 위한 개방형 데이터와 코드를 제공한다.
제안 방법
- ICLR 2024의 OpenReview 데이터를 이용한 세 연구 준실험 설계(참가작 7,404편; 리뷰 28,028건).
- 연구 1: GPTZero로 AI-지원 심사를 탐지하여 만연성(하한)을 추정한다.
- 연구 2: 동일 제출에 대해 AI-지원 심사와 인간 심사 점수를 비교하여 점수 영향력을 추정한다.
- 연구 3: 내용 기반 매칭과 로지스틱/선형 회귀를 사용한 매칭 페어 분석으로 수락에 대한 효과를 추정한다.
실험 결과
연구 질문
- RQ1LLM 탐지기에 의해 ICLR 2024 리뷰의 몇 비율이 AI-지원으로 분류되었는가?
- RQ2동일 논문에 대해 AI-지원 심사는 인간 심사보다 체계적으로 높은 점수를 산출하는가?
- RQ3다른 요인을 통제했을 때 AI-지원 심사는 제출 수락 확률을 증가시키는가?
- RQ4경계선 제출과 같이 이질적 효과가 나타나는가?
주요 결과
- AI-지원 심사는 만연했으며, 최소 15.8%의 리뷰가 AI-지원으로 분류되었다.
- 동일 제출 내 비교에서 AI-지원 심사는 인간 심사보다 점수가 더 높은 비율이 53.4%였고(p=0.002; 상대 오즈 증가 +14.4%),
- AI-지원 심사가 포함된 제출은 수락 확률이 13.8% 더 높은 오즈를 가지거나( p=0.024) 평균적으로 수락이 3.1% 포인트 더 높았다.
- 경계선 제출(평균 인간 점수 5–6)에서 가장 큰 효과가 나타났으며, 수락이 4.9% 포인트 증가(p=0.024; 오즈 31.1% 증가)했다.
- 다양한 분석에서 AI-지원 심사가 점수와 수락에 영향을 주는 것으로 나타나 심사에 대한 신뢰와 공정성에 대한 우려를 제기한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.