[논문 리뷰] Can large language models replace humans in the systematic review process? Evaluating GPT-4's efficacy in screening and extracting data from peer-reviewed and grey literature in multiple languages
본 연구는 제목/초록 선별, 전문 전체 텍스트 선별, 데이터 추출에서 GPT-4의 자율적 성능을 예비 등록하고 테스트하였으며, 우연성과 데이터셋 불균형을 고려할 때 GPT-4가 인간보다 종종 떨어지지만, 매우 신뢰할 수 있는 프롬프트 하에서 특히 전체 텍스트 선별에서 거의 병렬의 결과를 달성할 수 있음을 발견했다.
Systematic reviews are vital for guiding practice, research, and policy, yet they are often slow and labour-intensive. Large language models (LLMs) could offer a way to speed up and automate systematic reviews, but their performance in such tasks has not been comprehensively evaluated against humans, and no study has tested GPT-4, the biggest LLM so far. This pre-registered study evaluates GPT-4's capability in title/abstract screening, full-text review, and data extraction across various literature types and languages using a 'human-out-of-the-loop' approach. Although GPT-4 had accuracy on par with human performance in most tasks, results were skewed by chance agreement and dataset imbalance. After adjusting for these, there was a moderate level of performance for data extraction, and - barring studies that used highly reliable prompts - screening performance levelled at none to moderate for different stages and languages. When screening full-text literature using highly reliable prompts, GPT-4's performance was 'almost perfect.' Penalising GPT-4 for missing key studies using highly reliable prompts improved its performance even more. Our findings indicate that, currently, substantial caution should be used if LLMs are being used to conduct systematic reviews, but suggest that, for certain systematic review tasks delivered under reliable prompts, LLMs can rival human performance.
연구 동기 및 목표
- 체계적 고찰 주제에 대해 제목/초록 선별, 전문 전체 텍스트 선별, 데이터 추출에서 GPT-4의 자율적 성능 평가.
- 동료 검토된 문헌, 그레이 문헌, 비영어 문헌을 포함한 다언어 소스 및 그레이 문헌에 대해 GPT-4를 평가.
- LLM 보조 선별의 신뢰성 및 편향을 이해하기 위해 프롬프트 엔지니어링 및 분석을 예비 등록하고 문서화.
제안 방법
- ChatGPT 인터페이스를 통해 2023년 5월~9월에 GPT-4를 사용하여 300건의 제목/초록을 선별하고 150건의 전체 텍스트를 선별하며 30문서에서 데이터를 추출.
- 제목/초록 선별을 위한 포함/배제 프롬프트 네 가지를 시험; 데이터 양과 맥락을 관리하기 위한 프롬프트 조정; 기준당 10개 연구로 검사-재검사 신뢰도 평가.
- 진짜 양성, 진짜 음성, 위양성, 위음성을 사용해 성능을 측정하고 민감도, 특이도, 정확도를 보고.
- 우연 합의 및 데이터셋 불균형 보정을 위해 Cohen's kappa, PABAK, 가중 카파를 사용해 합의 품질을 측정.
- 데이터셋 균형 조정 및 문헌 유형과 언어별 성능 보고, 고신뢰 프롬프트 하위집단 및 비영어/그레이 문헌 포함.
- 맥락상 인간 심사자 간의 일치도 벤치마크(Cohen’s kappa 약 0.77)를 보고하고 해석.
실험 결과
연구 질문
- RQ1GPT-4가 다양한 문헌 유형과 언어에서 인간 심사자와 비견할 만큼의 정확도로 제목/초록 및 전체 텍스트를 자율적으로 선별할 수 있는가?
- RQ2동료 검토된, 그레이, 비영어 연구에서 데이터 추출의 성능은 어떠한가?
- RQ3프롬프트 신뢰성과 프롬프트 설계가 GPT-4의 선별 및 추출 성능에 어떤 영향을 미치는가?
- RQ4우연 합의 및 데이터셋 균형이 체계적 고찰에서 GPT-4의 측정된 성능에 어느 정도 영향을 미치는가?
주요 결과
| Balance | Sensitivity | Specificity | Accuracy | Cohen Kappa * | Weighted Kappa | Adjusted Kappa ** | ||
|---|---|---|---|---|---|---|---|---|
| Title and abstract screening | English peer-reviewed | 1 | 0.42 | 0.92 | 0.67 | 0.34 | 0.23 | 0.34 |
| Title and abstract screening | English grey | 1 | 0.48 | 0.84 | 0.66 | 0.32 | 0.24 | 0.32 |
| Title and abstract screening | Other languages | 0.05 | 0.50 | 0.89 | 0.88 | 0.21 | 0.40 | 0.75 |
| Full text screening | English peer-reviewed | 0.92 | 0.38 | 0.69 | 0.54 | 0.07 | 0.05 | 0.08 |
| Full text screening | English grey | 0.11 | 0.60 | 0.80 | 0.78 | 0.24 | 0.44 | 0.55 |
| Full text screening | Other languages | 0.09 | 1 | 0.95 | 0.96 | -0.10 | -0.11 | 0.64 |
| Data extraction | High-reliability prompt group | 0.05 | 0.36 | 0.94 | 0.85 | 0.65 | 0.97 | 0.91 |
| Data extraction | English peer-reviewed | 0.03 | 0.75 | 0.84 | 0.82 | 0.54 | 0.63 | 0.63 |
| Data extraction | English grey | 0.24 | 0.65 | 0.85 | 0.81 | 0.45 | 0.53 | 0.62 |
| Data extraction | Other languages | 0.20 | 0.36 | 0.94 | 0.85 | 0.35 | 0.29 | 0.69 |
- GPT-4는 일부 작업(예: 실증 데이터 및 난민 관련 개념)에서 높은 신뢰성을 보였으나, 양육 행태 및 장기 난민 상황과 같은 다른 개념에 대해서는 낮은 신뢰성을 보였다.
- 단계와 언어 전반에 걸쳐 GPT-4의 민감도와 특이도는 달랐으며, 일반적으로 매우 높은 특이도(>0.8)와 다양한 민감도(0.36~0.75)로 문헌 유형 및 단계에 따라 달랐다.
- 영어 동료 검토 전체 텍스트 선별에서의 정확도는 낮은 편이었고(0.69) 비영어 데이터셋(전체 텍스트 0.96, 추출 0.84) 대비 낮았다.
- 고신뢰 프롬프트를 가진 하위 샘플은 거의 완벽에 가까운 합의(kappa ~0.85–0.97, 가중 시) 를 보였으며 프롬프트 품질이 성능을 결정적으로 좌우한다는 것을 시사한다.
- 전체적으로 불균형 및 우연 합의를 고려하면 GPT-4의 성능은 인간보다 뒤처지는 경우가 많았으나, 전체 텍스트 선별의 매우 신뢰할 수 있는 프롬프트 조건에서 거의 완벽한 성능이 관찰되었다.
- 연구는 LLM을 체계적 고찰에 광범위하게 적용하는 데 주의가 필요함을 강조하면서도, 작업별로 프롬프트의 신뢰성에 의존하는 맥락에서 인간 성능에 근접한 결과를 낼 가능성을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.