[논문 리뷰] Using GPT-4 to Augment Unbalanced Data for Automatic Scoring
이 논문은 불균형 데이터셋의 균형을 맞추기 위해 소수 클래스 학생 응답을 생성하는 GPT-4를 사용하고, 자동 점수를 위한 DistilBERT를 미세조정하여 비증강 데이터 및 골드 스탠다드 증강과 비교했을 때 정확도, 정밀도, 재현율, F1을 향상시킨다.
Machine learning-based automatic scoring faces challenges with unbalanced student responses across scoring categories. To address this, we introduce a novel text data augmentation framework leveraging GPT-4, a generative large language model, specifically tailored for unbalanced datasets in automatic scoring. Our experimental dataset comprised student written responses to four science items. We crafted prompts for GPT-4 to generate responses, especially for minority scoring classes, enhancing the data set. We then finetuned DistillBERT for automatic scoring based on the augmented and original datasets. Model performance was assessed using accuracy, precision, recall, and F1 metrics. Our findings revealed that incorporating GPT-4-augmented data remarkedly improved model performance, particularly for precision and F1 scores. Interestingly, the extent of improvement varied depending on the specific dataset and the proportion of augmented data used. Notably, we found that a varying amount of augmented data (20%-40%) was needed to obtain stable improvement for automatic scoring. Comparisons with models trained on additional student-written responses suggest that GPT-4 augmented models match those trained with student data. This research underscores the potential and effectiveness of data augmentation techniques utilizing generative large language models like GPT-4 in addressing unbalanced datasets within automated assessment.
연구 동기 및 목표
- 학생 과학 설명의 자동 채점에서 불균형한 응답 분포를 다룬다.
- 소수 클래스의 채점을 강화하기 위한 GPT-4 프롬프트 증강을 탐구한다.
- 증강 데이터 사용과 원본 및 골드 스탠다드 증강과의 채점 성능을 평가한다.
- 증강 비율이 모델 지표와 안정성에 미치는 영향을 평가한다.
제안 방법
- Q1 및 Q2로 표시된 소수 클래스가 매우 불균형한 두 개의 과학 항목 데이터 세트를 구성한다.
- 데이터를 균형 있게 만들기 위해 소수 클래스 인스턴스에 대해 GPT-4 증강 응답을 생성한다.
- 자동 채점을 위해 증강 데이터와 원본 데이터 세트에서 DistilBERT를 미세조정한다.
- 테스트 세트의 소수 표현이 확대되도록 데이터를 학습/검증/테스트로 분할한다.
- 다양한 증강 비율(0–100%)에 걸쳐 정확도, 정밀도, 재현율, F1로 모델을 평가한다.
- GPT-4 증강 데이터를 골드 스탠다드(추가 실학생 응답) 증강과 비교한다.
실험 결과
연구 질문
- RQ1GPT-4 증강 학습 데이터가 채점 성능을 얼마나 향상시키는가?
- RQ2GPT-4 기반 데이터 증강이 채점 모델 성능 향상에 얼마나 효율적인가?
- RQ3추가 학생 작성 응답을 사용하는 것과 GPT-4 기반 데이터 증강은 어떻게 비교되는가?
주요 결과
- GPT-4 증강은 정밀도, 재현율, F1에서 향상을 보이며, 두 항목에 걸친 평균 최대 증가가 각각 3.5%(정확도), 30.6%(정밀도), 21.1%(재현율), 24.2%(F1)이다.
- 증강 데이터 5%만 사용해도 두드러진 이득이 발생한다: 평균적으로 2.6% 정확도, 29.2% 정밀도, 15.1% 재현율, 19.6% F1.
- 작업별 개선은 데이터셋에 따라 다르며, 이득은 데이터 특성 및 증강 수준에 달려 있다.
- 증강 데이터 모델은 일반적으로 학생 작성 증강 데이터로 학습된 모델의 성능과 동등하거나 그 이상이며, 정확도 차이 약 1.7%, 정밀도 약 1.9%, 재현율 약 11.0%, F1 약 7.8%가 GPT-4 증강 측에 우세하다.
- 작업 1의 경우, 초기 증강으로 정밀도/재현율/F1이 크게 향상되며 5–20% 이상의 증강에서 안정화되는 경향이 있다.
- 작업 2의 경우, 증강으로 정확도는 높은 상태를 유지하지만(천장 효과), 재현율과 F1은 더 많은 증강 데이터로 향상되다가 약 40% 근처의 포화점에 도달한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.