[논문 리뷰] On the Use of a Large Language Model to Support the Conduction of a Systematic Mapping Study: A Brief Report from a Practitioner's View
논문은 LLM을 사용한 체계적 매핑 연구에 대한 엔드투엔드 경험을 보고하며, 시간 절약, 정확도, 프롬프트 조정, 그리고 인간 감독의 필요성을 자세히 다룬다.
The use of Large Language Models (LLMs) has drawn growing interest within the scientific community. LLMs can handle large volumes of textual data and support methods for evidence synthesis. Although recent studies highlight the potential of LLMs to accelerate screening and data extraction steps in systematic reviews, detailed reports of their practical application throughout the entire process remain scarce. This paper presents an experience report on the conduction of a systematic mapping study with the support of LLMs, describing the steps followed, the necessary adjustments, and the main challenges faced. Positive aspects are discussed, such as (i) the significant reduction of time in repetitive tasks and (ii) greater standardization in data extraction, as well as negative aspects, including (i) considerable effort to build reliable well-structured prompts, especially for less experienced users, since achieving effective prompts may require several iterations and testing, which can partially offset the expected time savings, (ii) the occurrence of hallucinations, and (iii) the need for constant manual verification. As a contribution, this work offers lessons learned and practical recommendations for researchers interested in adopting LLMs in systematic mappings and reviews, highlighting both efficiency gains and methodological risks and limitations to be considered.
연구 동기 및 목표
- 소프트웨어 엔지니어링에서 SMS를 지원하기 위한 LLM의 엔드투엔드 사용을 입증한다.
- 수동 방법과 비교한 LLM 보조 선별 및 데이터 추출의 시간 효율성과 정확도 평가.
- SMS 워크플로우에 LLM을 통합할 때 필요한 도전과제, 위험 및 조정 사항을 확인한다.
- 체계적 매핑 및 리뷰에서 LLM을 사용하는 연구자들을 위한 실용적 권고사항과 교훈을 제시한다.
제안 방법
- Kitchenham and Charters 및 Wohlin 등 지침에 맞춘 프로토콜 정의.
- 제목/초록을 먼저 수동으로 선별한 다음, 비교를 위해 ChatGPT-4에 구조화된 프롬프트를 사용한다.
- 미리 정의된 템플릿을 사용하여 수동 및 LLM 지원 조건에서 데이터 추출을 수행한다.
- 환각 및 불일치를 완화하기 위한 이중 확인 검증 전략을 적용한다.
- 부분집합에서 추가 모델(Gemini PRO, Manus, Copilot)을 테스트하여 모델 간 성능을 탐색한다.
실험 결과
연구 질문
- RQ1SMS에서 LLM 보조 선별이 시간 및 정확도 측면에서 수동 선별과 어떻게 비교되는가?
- RQ2SMS에서 LLM 보조 데이터 추출이 시간 및 정확도면에서 수동 추출과 어떻게 비교되는가?
- RQ3SMS 워크플로우에 LLM을 통합할 때의 실용적 조정, 위험 및 검증 필요성은 무엇인가?
- RQ4대체 LLM(Gemini PRO, Manus, Copilot)이 선별 및 추출 작업에서 어떻게 수행되는가?
주요 결과
| 측면 | 수동 실행 | LLM 보조 실행 (ChatGPT-4) |
|---|---|---|
| Screening Time | Approximately 23 days (219 studies) | Approximately 9 hours (reduction of 98%) |
| Extraction Time | Approximately 7 days (13 studies) | Approximately 1 hour (reduction of 99%) |
| Screening Accuracy | 208 correct out of 219 studies; 11 hallucinations identified | Approximately 95% agreement (208/219) |
| Extraction Accuracy | 12 correct out of 13 studies; 1 error identified | Approximately 92.3% agreement (12/13) |
| Main Risks | Human reading errors or fatigue | Hallucinations, dependence on prompt engineering, inconsistency across model versions |
| Verification Applied | Cross-checking among human reviewers | Double-checking: comparison with manual results + review of discrepancies |
- LLM 보조 선별은 ~23일에서 ~9시간으로 시간 감소(98% 감소).
- LLM 보조 추출은 ~7일에서 ~1시간으로 시간 감소(99% 감소).
- LLM으로 된 선별 정확도는 ~95%(208/219 정답, 11 개 환각).
- LLM으로 된 추출 정확도는 ~92.3%(12/13 정답, 1 오차).
- LLM 출력물은 환각을 완화하고 일관성을 보장하기 위해 인간 검증이 필요했다.
- Gemini PRO는 테스트된 부분집합에서 선별과 추출 모두에서 90% 정확도를 보였고; Manus는 선별에서 98%, 추출에서 40%를 보였으며; Copilot은 두 작업에서 60%를 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.