[논문 리뷰] ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing
요약: 이 논문은 세 가지 과제(오류 탐지, 체크리스트 검증, 초록 쌍 비교)에서 GPT-4를 심사 보조 도구로 평가하고, 특정 과제에 대해서는 가능성을 보이나 전체 리뷰에는 아직 미흡하다고 밝혔습니다. 또한 피어 리뷰 연구를 위한 소형 LLM 평가 데이터셋도 제공합니다.
Given the rapid ascent of large language models (LLMs), we study the question: (How) can large language models help in reviewing of scientific papers or proposals? We first conduct some pilot studies where we find that (i) GPT-4 outperforms other LLMs (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), and (ii) prompting with a specific question (e.g., to identify errors) outperforms prompting to simply write a review. With these insights, we study the use of LLMs (specifically, GPT-4) for three tasks: 1. Identifying errors: We construct 13 short computer science papers each with a deliberately inserted error, and ask the LLM to check for the correctness of these papers. We observe that the LLM finds errors in 7 of them, spanning both mathematical and conceptual errors. 2. Verifying checklists: We task the LLM to verify 16 closed-ended checklist questions in the respective sections of 15 NeurIPS 2022 papers. We find that across 119 {checklist question, paper} pairs, the LLM had an 86.6% accuracy. 3. Choosing the "better" paper: We generate 10 pairs of abstracts, deliberately designing each pair in such a way that one abstract was clearly superior than the other. The LLM, however, struggled to discern these relatively straightforward distinctions accurately, committing errors in its evaluations for 6 out of the 10 pairs. Based on these experiments, we think that LLMs have a promising use as reviewing assistants for specific reviewing tasks, but not (yet) for complete evaluations of papers or proposals.
연구 동기 및 목표
- LLMs가 제출 증가 속에서 피어 리뷰 작업 부담을 완화할 수 있는지 동기를 부여한다.
- 고의적으로 결함이 있는 짧은 논문의 오류를 GPT-4가 식별하는 능력을 평가한다.
- 저자 제공 체크리스트를 ground truth와 대조해 LLM의 검증 정확성을 평가한다.
- 대조되는 초록들 중 더 나은 논문을 LLM이 선택할 수 있는지 테스트한다.
- 향후 LLM을 심사 작업에 활용하기 위한 평가 데이터셋을 제공한다.
제안 방법
- 오류 탐지에서 여러 LLM(GPT-4, Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM)의 파일럿 비교를 수행한다.
- 타깃 심사 행태를 이끌어내기 위한 세 가지 프롬팅 전략(Prompt-Direct, Prompt-OneShot, Prompt-Parts)을 개발한다.
- GPT-4의 오류 탐지를 테스트하기 위해 의도적으로 오류를 포함한 13편의 짧은 CS 논문을 구성한다.
- 정확도 측정을 위해 15편의 논문에서 16 NeurIPS 2022 체크리스트 항목(119 쌍)을 평가한다.
- LLM이 더 나은 논문을 선택하는 능력을 테스트하기 위한 의도된 우수성을 가진 10개의 초록 쌍을 생성한다.
- 결과를 분석하여 강점, 한계 및 심사 워크플로우에서 LLM의 잠재적 역할을 도출한다.
실험 결과
연구 질문
- RQ1인위적으로 결함이 있는 CS 논문에서 LLM이 오류를 식별할 수 있는가?
- RQ2저자 제공 제출 체크리스트를 LLM이 얼마나 정확하게 검증할 수 있는가?
- RQ3LLM이 초록 쌍 중 어떤 논문이 더 낫다고 일관되게 선택할 수 있는가?
- RQ4전체 리뷰를 수행하지 않고도 특정 심사 작업을 돕는 LLM의 전반적 잠재력은 어느 정도인가?
주요 결과
- GPT-4는 의도적 결함이 있는 짧은 논문 13편 중 7편에서 오류를 식별했다.
- 119개의 쌍(체크리스트 항목, 논문)에서 LLM은 3개의 응답에서 다수 결론을 사용할 때 정확도 86.6%를 달성했다.
- 6쌍 중 10쌍에서 더 나은 초록을 신뢰성 있게 식별하는 데 LLM이 어려움을 겪었다.
- 다른 모델들은 13편의 논문에서 어떠한 오류도 식별하지 못했고 일부는 도움이 되지 않는 비판을 제시했다.
- 타깃 질문으로 프롬프트를 구성하면 전체 리뷰를 요청하는 것보다 더 유용한 심사를 얻을 수 있다.
- LLMs는 특정 작업에 대해 심사 보조자로서 가능성을 보이나, 독립적인 포괄적 리뷰를 아직 수행할 능력은 없다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.