QUICK REVIEW

[論文レビュー] Can large language models replace humans in the systematic review process? Evaluating GPT-4's efficacy in screening and extracting data from peer-reviewed and grey literature in multiple languages

Qusai Khraisha, S. Van Put|arXiv (Cornell University)|Oct 26, 2023

Artificial Intelligence in Healthcare and Education参考文献 37被引用数 11

ひとこと要約

この研究は GPT-4 の自律的な性能を、タイトル/要旨のスクリーニング、全文 screened、データ抽出について、査読済み文献、グレー文献、非英語文献を跨いで事前登録し検証しており、GPT-4 は偶然性とデータセットの不均衡を考慮すると人間には及ばないことが多いが、非常に信頼性の高いプロンプト下では、特に全文スクリーニングにおいて、人間とほぼ並走する結果を得られる可能性がある。

ABSTRACT

Systematic reviews are vital for guiding practice, research, and policy, yet they are often slow and labour-intensive. Large language models (LLMs) could offer a way to speed up and automate systematic reviews, but their performance in such tasks has not been comprehensively evaluated against humans, and no study has tested GPT-4, the biggest LLM so far. This pre-registered study evaluates GPT-4's capability in title/abstract screening, full-text review, and data extraction across various literature types and languages using a 'human-out-of-the-loop' approach. Although GPT-4 had accuracy on par with human performance in most tasks, results were skewed by chance agreement and dataset imbalance. After adjusting for these, there was a moderate level of performance for data extraction, and - barring studies that used highly reliable prompts - screening performance levelled at none to moderate for different stages and languages. When screening full-text literature using highly reliable prompts, GPT-4's performance was 'almost perfect.' Penalising GPT-4 for missing key studies using highly reliable prompts improved its performance even more. Our findings indicate that, currently, substantial caution should be used if LLMs are being used to conduct systematic reviews, but suggest that, for certain systematic review tasks delivered under reliable prompts, LLMs can rival human performance.

研究の動機と目的

GPT-4 の自律的な性能を、システマティックレビューのトピックに対するタイトル/要旨のスクリーニング、全文スクリーニング、データ抽出で評価する。
ピアレビュー文献、グレー文献、非英語文献を含むグレー文献と多言語ソースを評価する。
LLM 支援スクリーニングの信頼性とバイアスを理解するため、プロンプト設計と分析を事前登録し文書化する。

提案手法

GPT-4 を ChatGPT インターフェース経由で使用（2023年5月–9月）し、300 件のタイトル/要旨と150 件の全文をスクリーニングし、30 件の文献からデータを抽出する。
タイトル/要旨スクリーニングのための4つの包含/除外プロンプトをテストし、データ量と文脈の管理のためにプロンプトを調整する；基準ごとに10 件の研究でテスト-再テストの信頼性を評価する。
真陽性、真陰性、偽陽性、偽陰性で性能を測定し、感度、特異度、正確度を報告する。
コーエンのκ、PABAK、加重κを用いて偶然合意とデータセットの不均衡を補正し、合意の質を評価する。
データセットをバランスさせ、文献タイプと言語別の性能を報告する高信頼性プロンプト群と非英語/グレー文献を含む。
人間のレビュー者間の再現性のベンチマーク（コーエンのκ ≈ 0.77）を文脈上、解釈として報告する。

実験結果

リサーチクエスチョン

RQ1GPT-4 は、言語・文献タイプの異なる場合でも、人間のレビュアーと同程度の正確さで、タイトル/要旨および全文を自律的にスクリーニングできるか。
RQ2ピアレビュー文献、グレー文献、非英語研究を横断したデータ抽出で GPT-4 はどのように機能するか。
RQ3プロンプトの信頼性と設計が GPT-4 のスクリーニングと抽出の性能に与える影響は何か。
RQ4偶然の合意とデータセットのバランスが、システマティック・レビューにおける GPT-4 の測定性能にどの程度影響するか。

主な発見

Balance	Sensitivity	Specificity	Accuracy	Cohen Kappa *	Weighted Kappa	Adjusted Kappa **
タイトルと要旨のスクリーニング	英語の査読付き	1	0.42	0.92	0.67	0.34	0.23	0.34
タイトルと要旨のスクリーニング	英語のグレー文献	1	0.48	0.84	0.66	0.32	0.24	0.32
タイトルと要旨のスクリーニング	その他の言語	0.05	0.50	0.89	0.88	0.21	0.40	0.75
全文スクリーニング	英語の査読付き	0.92	0.38	0.69	0.54	0.07	0.05	0.08
全文スクリーニング	英語のグレー文献	0.11	0.60	0.80	0.78	0.24	0.44	0.55
全文スクリーニング	その他の言語	0.09	1	0.95	0.96	-0.10	-0.11	0.64
データ抽出	高信頼性プロンプト群	0.05	0.36	0.94	0.85	0.65	0.97	0.91
データ抽出	英語の査読付き	0.03	0.75	0.84	0.82	0.54	0.63	0.63
データ抽出	英語のグレー文献	0.24	0.65	0.85	0.81	0.45	0.53	0.62
データ抽出	その他の言語	0.20	0.36	0.94	0.85	0.35	0.29	0.69

GPT-4 は、いくつかのタスク（例：実証データと難民）で高い信頼性を示した一方、保護者行動や長期的な難民状況といった他の概念では信頼性が低かった。
段階と語学を跨ぐと、GPT-4 の感度と特異度は変動し、特異度は一般に非常に高い（>0.8）、感度は文献タイプと段階に応じて 0.36 〜 0.75 の範囲で変動。
英語の査読付き全文スクリーニングでは正確度が相対的に低く（0.69）、非英語データセットでは高く（全文 0.96）、抽出では英語査読付きで 0.84。
高信頼性プロンプト群のサブサンプルはほぼ完璧な合意を示し（κ は重み付きで約 0.85〜0.97）、プロンプト品質が性能を決定的に左右することを示唆。
全体として、不均衡と偶然の合意を考慮すると、GPT-4 の性能は人間を追い越すことは少なく、全文スクリーニングの高度に信頼性の高いプロンプト条件下でのみほぼ完璧な性能が観察された。
本研究はシステマティックレビューへの LLM の広範な適用には注意を促しつつ、タスク特異的で信頼性の高いプロンプトが人間の性能に近づく可能性を指摘する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。