[논문 리뷰] Fine-Tuning A Large Language Model for Systematic Review Screening
저자들은 단일 체계적 문헌고찰에서 제목/초록 선별을 위해 소형 1.2B 파라미터 LLM을 미세조정하여, 전체 데이터세트에 대한 인간 의사결정과 높은 일치를 보이고 추론 실행 간 일관된 결과를 달성하며 베이스라인 대비 큰 개선을 이끌어냈다.
Systematic reviews traditionally have taken considerable amounts of human time and energy to complete, in part due to the extensive number of titles and abstracts that must be reviewed for potential inclusion. Recently, researchers have begun to explore how to use large language models (LLMs) to make this process more efficient. However, research to date has shown inconsistent results. We posit this is because prompting alone may not provide sufficient context for the model(s) to perform well. In this study, we fine-tune a small 1.2 billion parameter open-weight LLM specifically for study screening in the context of a systematic review in which humans rated more than 8500 titles and abstracts for potential inclusion. Our results showed strong performance improvements from the fine-tuned model, with the weighted F1 score improving 80.79% compared to the base model. When run on the full dataset of 8,277 studies, the fine-tuned model had 86.40% agreement with the human coder, a 91.18% true positive rate, a 86.38% true negative rate, and perfect agreement across multiple inference runs. Taken together, our results show that there is promise for fine-tuning LLMs for title and abstract screening in large-scale systematic reviews.
연구 동기 및 목표
- 인간 주석 데이터에 대한 모델 미세조정을 통해 체계적 문헌고찰의 선별 작업 부담을 줄이는 것을 동기화한다.
- 특정 리뷰에 대해 소형 LLM이 강력하고 일관된 선별 성능을 달성할 수 있는지 평가한다.
- 보류 테스트와 전체 데이터셋 테스트를 포함한 평가 전략을 시연한다.
- 모델, 데이터셋, 코드가 공개되어 재현 가능한 파이프라인을 제공한다.
제안 방법
- Liquid AI의 LFM2.5-1.2B-Instruct (bf16)을 명령-응답 쌍에 대한 전체 매개변수 감독 미세조정을 사용하여 미세조정한다.
- 단일 GPU에서 효율적으로 미세 조정하기 위해 Hugging Face TRL 트레이닝 스택과 함께 Unsloth를 사용한다.
- 320 스텝, 학습률 2e-5, 배치크기 제약 및 짧은 워밍업으로 학습한다; 최대 시퀀스 길이는 4096.
- 데이터를 지시-응답 쌍으로 형식화하고 응답 마스킹을 적용한다(손실은 보조 토큰에서만 계산).
- 선정된 371개 초록 데이터셋을 훈련(315)과 테스트(56)로 분할하고 클래스 불균형 문제를 다루기 위한 포함 케이스를 강화한다.
- 다중 지표, 불균형 인식 지표(균형 정확도, 가중 및 클래스별 F1/F2, 혼동 행렬)와 평가자 간 신뢰도(Cohen’s kappa, PABAK, Gwet’s AC1, Fleiss’ kappa)로 평가한다.
- 온도 0.1, 0.4, 0.8에서 다중 패스 추론을 수행하여 일관성을 평가하고 챗 기반 출력에서 예측을 파싱한다.
실험 결과
연구 질문
- RQ1모델의 제목/초록 선별에 대한 기본 성능은 인간 등급 대비 어느 정도인가?
- RQ2훈련된 소형 LLM이 인간 등급과 비교해 검증 데이터셋에서 어떤 성능을 보이는가?
- RQ3훈련된 모델이 전체 데이터셋에서 인간 심사자와 비교해 어떤 성능을 보이는가?
- RQ4모델의 선별 성능은 여러 추론 온도에서 강건한가?
주요 결과
| 설정 | N | 정확도 | 균형 정확도 | Macro-F1 | Macro-F2 | 가중 F1 | 가중 F2 |
|---|---|---|---|---|---|---|---|
| 기본(Base, 미세조정 없음) 전체 데이터셋 | 8,277 | 6.52 | 53.07 | 6.22 | 4.86 | 11.52 | 7.54 |
| 미세조정된 보류 테스트 분할 | 56 | 94.64 | 94.49 | 93.77 | 94.19 | 94.68 | 94.65 |
| 미세조정된 전체 데이터셋 | 8,277 | 86.40 | 88.78 | 48.95 | 50.41 | 92.31 | 88.48 |
- Baseline (base model, full dataset) balanced accuracy 53.07% and overall accuracy 6.52%.
- Fine-tuned model on held-out test split achieves 94.64% accuracy and 94.49% balanced accuracy.
- Fine-tuned model on full dataset yields 86.40% accuracy and 88.78% balanced accuracy.
- On the full dataset, include class recall 91.18% but precision 2.69% (F1 5.22%), exclude class precision 86.38% and recall 92.67% (F1 92.67%).
- Model–human agreement on the full dataset is 86.40% with Gwet AC1 = 0.843; Cohen’s kappa is 0.045 and PABAK = 0.728.
- Three inference passes across temperatures 0.1, 0.4, 0.8 show perfect LLM-only consistency (Cohen’s kappa = 1.0 between passes) and multi-rater AC1 = 0.842 (95% CI).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.