[논문 리뷰] The emergence of Large Language Models (LLM) as a tool in literature reviews: an LLM automated systematic review
본 논문은 대형 언어 모델이 문헌 고찰을 자동화하는 방식을 조사하고, 지배적인 GPT 기반 아키텍처를 식별하며, 자동화가 가장 활발한 고찰 단계와 데이터 추출 및 선별에서의 성능을 제시한다.
Objective: This study aims to summarize the usage of Large Language Models (LLMs) in the process of creating a scientific review. We look at the range of stages in a review that can be automated and assess the current state-of-the-art research projects in the field. Materials and Methods: The search was conducted in June 2024 in PubMed, Scopus, Dimensions, and Google Scholar databases by human reviewers. Screening and extraction process took place in Covidence with the help of LLM add-on which uses OpenAI gpt-4o model. ChatGPT was used to clean extracted data and generate code for figures in this manuscript, ChatGPT and Scite.ai were used in drafting all components of the manuscript, except the methods and discussion sections. Results: 3,788 articles were retrieved, and 172 studies were deemed eligible for the final review. ChatGPT and GPT-based LLM emerged as the most dominant architecture for review automation (n=126, 73.2%). A significant number of review automation projects were found, but only a limited number of papers (n=26, 15.1%) were actual reviews that used LLM during their creation. Most citations focused on automation of a particular stage of review, such as Searching for publications (n=60, 34.9%), and Data extraction (n=54, 31.4%). When comparing pooled performance of GPT-based and BERT-based models, the former were better in data extraction with mean precision 83.0% (SD=10.4), and recall 86.0% (SD=9.8), while being slightly less accurate in title and abstract screening stage (Maccuracy=77.3%, SD=13.0). Discussion/Conclusion: Our LLM-assisted systematic review revealed a significant number of research projects related to review automation using LLMs. The results looked promising, and we anticipate that LLMs will change in the near future the way the scientific reviews are conducted.
연구 동기 및 목표
- 과학적 리뷰를 작성하는 과정에서 LLM이 어떻게 사용되는지 요약한다.
- 문헌 고찰의 어떤 단계가 LLM으로 자동화될 수 있는지 평가한다.
- 리뷰 자동화를 위해 LLM을 활용하는 최신 연구 프로젝트를 검토한다.
- 과학적 리뷰 수행 방식의 향후 변화에 대한 시사점을 논의한다.
제안 방법
- 2024년 6월에 PubMed, Scopus, Dimensions, 그리고 Google Scholar에서 수행된 검색.
- Covidence에서 LLM 애드온(OpenAI GPT-4o 사용)으로 선별 및 추출 수행.
- 추출된 데이터를 정리하고 논문의 도표용 코드를 생성하는 데 ChatGPT를 사용.
- 본문 구성의 모든 구성요소를 초안하는 데 ChatGPT와 이 URL이 사용되었으며, 방법 및 논의를 제외했다.
- 추출 및 선별 성능에서 GPT 기반 모델과 BERT 기반 모델의 비교.
실험 결과
연구 질문
- RQ1LLMs로 자동화될 수 있는 문헌 고찰의 단계는 무엇인가?
- RQ2LLM 기반 리뷰 자동화의 최신 기술 수준은 무엇인가?
- RQ3주요 리뷰 과제에서 GPT 기반 모델은 BERT 기반 모델과 어떻게 비교되는가?
- RQ4LLMs가 실제 문헌 고찰을 작성하는 데 얼마나 사용되고 있으며, 개별 단계를 자동화하는 데 얼마나 사용되고 있는가?
주요 결과
- 3,788개의 기사를 검색했다.
- 172 연구는 최종 리뷰에 포함될 자격이 있는 것으로 판단됐다.
- ChatGPT 및 GPT-based LLM이 리뷰 자동화를 위한 가장 지배적인 아키텍처였다 (n=126, 73.2%).
- 자동화 프로젝트가 다수 존재하지만, 실제로 LLM을 활용해 작성된 리뷰는 26편(15.1%)에 불과하다.
- 대부분의 인용은 publications 검색(n=60, 34.9%)과 데이터 추출(n=54, 31.4%)에 집중되어 있다.
- 데이터 추출에서 GPT-based 모델은 BERT-based 모델보다 성능이 우수했다(평균 정밀도 83.0%, SD=10.4; 재현율 86.0%, SD=9.8) 하지만 제목/초록 선별에서는 약간 덜 정확했다(Maccuracy=77.3%, SD=13.0).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.