[논문 리뷰] Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review
논문은 학술 심사를 위해 사용되는 대형 언어 모델이 명시적 및 암시적 조작에 취약하고, 고유한 결함과 편향이 있으며, 따라서 광범위한 채택에는 준비되지 않았다.
Scholarly peer review is a cornerstone of scientific advancement, but the system is under strain due to increasing manuscript submissions and the labor-intensive nature of the process. Recent advancements in large language models (LLMs) have led to their integration into peer review, with promising results such as substantial overlaps between LLM- and human-generated reviews. However, the unchecked adoption of LLMs poses significant risks to the integrity of the peer review system. In this study, we comprehensively analyze the vulnerabilities of LLM-generated reviews by focusing on manipulation and inherent flaws. Our experiments show that injecting covert deliberate content into manuscripts allows authors to explicitly manipulate LLM reviews, leading to inflated ratings and reduced alignment with human reviews. In a simulation, we find that manipulating 5% of the reviews could potentially cause 12% of the papers to lose their position in the top 30% rankings. Implicit manipulation, where authors strategically highlight minor limitations in their papers, further demonstrates LLMs' susceptibility compared to human reviewers, with a 4.5 times higher consistency with disclosed limitations. Additionally, LLMs exhibit inherent flaws, such as potentially assigning higher ratings to incomplete papers compared to full papers and favoring well-known authors in single-blind review process. These findings highlight the risks of over-reliance on LLMs in peer review, underscoring that we are not yet ready for widespread adoption and emphasizing the need for robust safeguards.
연구 동기 및 목표
- 제출 증가와 노동 부담으로 인한 전통적 동료 평가에 대한 압박을 고무한다.
- LLMs가 학술 원고를 신뢰할 수 있게 평가할 수 있는지 평가한다.
- LLM 리뷰를 좌우할 수 있는 명시적 및 암시적 조작 벡터를 식별한다.
- 환각, 길이 편향, 저자 편향 등 LLM 기반 리뷰의 고유한 결함과 편향을 조사한다.
제안 방법
- 인간 리뷰와의 정렬에 연결된 세 가지 확립된 LLM 기반 심사 파이프라인을 재현한다.
- 원고에 보이지 않는 흰색 텍스트 삽입을 통한 명시적 조작을 개발하여 LLM 리뷰를 수용으로 유도한다.
- 저자의 한계를 강조하는 것을 분석하고 그것이 LLM 대 인간 리뷰에 미치는 영향을 통해 암시적 조작을 조사한다.
- 부분적으로 비어 있는 콘텐츠에서의 환각, 길이 편향, 저자 편향 등의 고유한 결함을 다수의 LLM에서 평가한다.
- LLM과 인간 리뷰 간의 일관성 지표와 등급-논문 모델을 사용하여 의사결정 영향력을 시뮬레이션하는 효과를 정량화한다.
실험 결과
연구 질문
- RQ1원고에 숨겨진 입력을 통해 LLM 기반 리뷰를 인간 판단과 다르게 조작할 수 있는가?
- RQ2저자가 공개한 한계가 LLM 리뷰를 인간 리뷰보다 더 편향되게 만드는가?
- RQ3피어리뷰 맥락에서 LLM이 보이는 고유한 결함이나 편향은 무엇인가(예: 환각, 길이, 저자 등재)?
- RQ4조작된 LLM 리뷰가 논문 순위 및 채택 결정에 어떤 영향을 미칠 수 있는가?
주요 결과
- 명시적 조작은 LLM-인간 리뷰의 일관성을 급격히 감소시킬 수 있다(예: 53.29에서 15.91로).
- 원고에 삽입된 조작 콘텐츠는 LLM 리뷰가 삽입된 콘텐츠와 높은 비율로 일치하게 만들 수 있다 ( Injection–LLM-Matched / Injection rises to 92.49%).
- 조작된 리뷰의 5%가 약 12%의 논문을 상위 30% 순위에서 이탈하게 만들 수 있다.
- LLMs는 저자의 공개한 한계와 인간보다 4.5배 더 일관되며, 암시적 조작에 취약함을 시사한다.
- LLMs는 불완전한 입력에서 환각할 수 있으며 불완전한 논문을 전체 논문과 유사하게 평가할 수 있어 LLM을 리뷰에 사용하는 데 신뢰성이 떨어진다.
- 단일-블라인드 설정에서 LLM은 잘 알려진 저자나 소속에 편향을 보여 공정성 문제가 제기된다.
- LLM의 인간 리뷰와의 일관성 성능은 전체 모델 능력과 상관관계가 있으며(예: GPT-4o-0806이 테스트 모델 중 가장 강력).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.