Skip to main content
QUICK REVIEW

[論文レビュー] The emergence of Large Language Models (LLM) as a tool in literature reviews: an LLM automated systematic review

Dmitry Scherbakov, Nina Hubig|arXiv (Cornell University)|Sep 6, 2024
Topic Modeling被引用数 5
ひとこと要約

本論文は、大規模言語モデルが文献レビューをどのように自動化するかを概説し、支配的な GPT ベースのアーキテクチャ、最も自動化されるレビュー段階、データ抽出とスクリーニングにおける性能を特定する。

ABSTRACT

Objective: This study aims to summarize the usage of Large Language Models (LLMs) in the process of creating a scientific review. We look at the range of stages in a review that can be automated and assess the current state-of-the-art research projects in the field. Materials and Methods: The search was conducted in June 2024 in PubMed, Scopus, Dimensions, and Google Scholar databases by human reviewers. Screening and extraction process took place in Covidence with the help of LLM add-on which uses OpenAI gpt-4o model. ChatGPT was used to clean extracted data and generate code for figures in this manuscript, ChatGPT and Scite.ai were used in drafting all components of the manuscript, except the methods and discussion sections. Results: 3,788 articles were retrieved, and 172 studies were deemed eligible for the final review. ChatGPT and GPT-based LLM emerged as the most dominant architecture for review automation (n=126, 73.2%). A significant number of review automation projects were found, but only a limited number of papers (n=26, 15.1%) were actual reviews that used LLM during their creation. Most citations focused on automation of a particular stage of review, such as Searching for publications (n=60, 34.9%), and Data extraction (n=54, 31.4%). When comparing pooled performance of GPT-based and BERT-based models, the former were better in data extraction with mean precision 83.0% (SD=10.4), and recall 86.0% (SD=9.8), while being slightly less accurate in title and abstract screening stage (Maccuracy=77.3%, SD=13.0). Discussion/Conclusion: Our LLM-assisted systematic review revealed a significant number of research projects related to review automation using LLMs. The results looked promising, and we anticipate that LLMs will change in the near future the way the scientific reviews are conducted.

研究の動機と目的

  • LLMs が科学的な総説を作成する過程でどのように利用されているかを要約する。
  • 文献レビューのどの段階を LLMs で自動化できるかを評価する。
  • レビュー自動化のために LLMs を用いた現在の最先端プロジェクトを検討する。
  • 科学的な総説の実施方法の将来の変化に対する影響を論じる。

提案手法

  • 2024年6月に PubMed、Scopus、Dimensions、Google Scholar で行った検索。
  • Covidence で LLM アドオンを用い OpenAI GPT-4o を使用してスクリーニングとデータ抽出を実施。
  • 抽出データのクリーニングと原稿の図のコード生成に ChatGPT を使用。
  • 方法と議論を除くすべての原稿コンポーネントの作成に ChatGPT およびこの URL を使用。
  • データ抽出とスクリーニングにおける性能比較として、GPT ベースモデルと BERT ベースモデルを比較。

実験結果

リサーチクエスチョン

  • RQ1LLMs によって自動化できる文献レビューの段階は何か?
  • RQ2LLM ベースのレビュー自動化の現状最先端は何か?
  • RQ3主要なレビュー作業における GPT ベースモデルと BERT ベースモデルの比較はどうか?
  • RQ4LLMs が実際の文献レビューの作成に用いられる程度と、個々の段階を自動化する程度との関係はどの程度か?

主な発見

  • 3,788 件の記事が回収された。
  • 172 件の研究が最終レビューの対象として適格と判断された。
  • ChatGPT と GPT ベースの LLM がレビュー自動化の最も支配的なアーキテクチャであった(n=126、73.2%)。
  • 多くの自動化プロジェクトが存在するが、作成過程で LLM を使用した実際の総説としての論文はわずか26件(15.1%)だった。
  • ほとんどの引用は出版物の検索(n=60、34.9%)とデータ抽出(n=54、31.4%)に焦点を当てていた。
  • GPT ベースのモデルはデータ抽出で BERT ベースのモデルより優れていた(平均適合率 83.0%、SD=10.4; 再現率 86.0%、SD=9.8)一方、タイトル/要旨のスクリーニングではやや精度が劣っていた(Maccuracy=77.3%、SD=13.0)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。