[논문 리뷰] Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks
이 논문은 자폐 관련 행동에 대한 BERT 기반 분류기를 보강하기 위해 LLM으로 생성된 합성 데이터를 사용하는 것을 탐구하며 데이터 품질과 모델 성능에 미치는 영향을 평가한다. 보강은 재현율은 증가시키고 정밀도는 감소시켰으며, 샘플 쌍에 대한 임상가 검증 품질은 약 83%이다.
An important problem impacting healthcare is the lack of available experts. Machine learning (ML) models may help resolve this by aiding in screening and diagnosing patients. However, creating large, representative datasets to train models is expensive. We evaluated large language models (LLMs) for data creation. Using Autism Spectrum Disorders (ASD), we prompted GPT-3.5 and GPT-4 to generate 4,200 synthetic examples of behaviors to augment existing medical observations. Our goal is to label behaviors corresponding to autism criteria and improve model accuracy with synthetic training data. We used a BERT classifier pretrained on biomedical literature to assess differences in performance between models. A random sample (N=140) from the LLM-generated data was also evaluated by a clinician and found to contain 83% correct behavioral example-label pairs. Augmenting the dataset increased recall by 13% but decreased precision by 16%. Future work will investigate how different synthetic data characteristics affect ML outcomes.
연구 동기 및 목표
- ML 모델에서 희소한 전문가 라벨 의학 데이터를 해결하기 위한 합성 데이터 사용을 촉진한다.
- LLM으로 생성된 관찰이 자폐 기준에 라벨링되어 학습 데이터를 보강할 수 있는지 평가한다.
- 생의학 문헌으로 학습된 BERT 분류기에 합성 데이터가 미치는 영향을 평가한다.
- 실제성과를 측정하기 위한 합성 라벨 샘플에 대해 임상의가 뒷받침하는 품질 점검을 제공한다.
제안 방법
- LLM(ChatGPT 및 GPT-Premium)에 의도하여 자폐 기준을 라벨링하는 4,200개의 합성 관찰을 생성하도록 프롬프트한다.
- 생물의학 사전학습 BERT 분류기를 사용하여 보강 데이터가 미치는 성능 차이를 평가한다.
- 레이블 정확도 추정(83% 정답)을 위해 임상의 평가를 위해 무작위로 140개의 합성 관찰을 샘플링한다.
- 합성 데이터를 학습 세트에 추가할 때 재현율과 정밀도의 변화를 측정한다.
실험 결과
연구 질문
- RQ1LLM으로 생성된 합성 데이터가 자폐 관련 행동 라벨링에 대한 분류기 성능을 향상시킬 수 있는가?
- RQ2임상의 평가에서 LLM으로 생성된 예시의 품질(라벨 정확도)은 어느 정도인가?
- RQ3보강된 합성 데이터가 BERT 기반 모델의 주요 성능 지표(재현율, 정밀도)에 어떤 영향을 미치는가?
주요 결과
- 합성 관찰로 데이터를 보강하면 재현율이 13% 증가한다.
- 보강된 데이터는 정밀도를 16% 감소시킨다.
- 무작위 샘플(N=140)에 대한 임상 평가에서 예시-레이블 쌍의 83%가 정답으로 나타났다.
- 합성 데이터 품질은 특성에 따라 달라지며 ML 결과에 영향을 준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.