QUICK REVIEW

[논문 리뷰] The Parrot Dilemma: Human-Labeled vs. LLM-augmented Data in Classification Tasks

Anders Giovanni Møller, Jacob Aarup Dalsgaard|arXiv (Cornell University)|2023. 04. 26.

Machine Learning and Data Classification인용 수 26

한 줄 요약

본 논문은 인간 라벨링 데이터와 GPT-4 및 Llama-2 보강 데이터를 10개의 CSS 분류 작업에 걸쳐 비교하고, 보통 인간이 더 우수한 성능을 보이지만 희귀 클래스와 복잡한 작업에서 LLM 보강의 이점이 있음을 보인다; 제로샷 LLM은 종종 라벨링된 데이터로 학습된 모델에 비해 성능이 떨어진다.

ABSTRACT

In the realm of Computational Social Science (CSS), practitioners often navigate complex, low-resource domains and face the costly and time-intensive challenges of acquiring and annotating data. We aim to establish a set of guidelines to address such challenges, comparing the use of human-labeled data with synthetically generated data from GPT-4 and Llama-2 in ten distinct CSS classification tasks of varying complexity. Additionally, we examine the impact of training data sizes on performance. Our findings reveal that models trained on human-labeled data consistently exhibit superior or comparable performance compared to their synthetically augmented counterparts. Nevertheless, synthetic augmentation proves beneficial, particularly in improving performance on rare classes within multi-class tasks. Furthermore, we leverage GPT-4 and Llama-2 for zero-shot classification and find that, while they generally display strong performance, they often fall short when compared to specialized classifiers trained on moderately sized training sets.

연구 동기 및 목표

분류 과제에서 인간 주석에 의존해야 할 때와 LLM 생성 보강에 의존해야 할 때를 가리키는 실행 가능한 지침을 계산 사회과학(CSS) 실무자들에게 제공한다.
다양한 복잡성과 클래스 균형을 갖는 과제들에 대해 인간-라벨링 데이터로 학습된 모델과 LLM 보강 데이터로 학습된 모델의 성능을 평가한다.
다른 데이터 소스에서 학습된 지도 학습 모델에 비해 GPT-4와 Llama-2의 제로샷 성능을 평가한다.

제안 방법

작업별로 10%의 기반 크라우드소싱 세트로 시작하여 저자원 라벨링을 시뮬레이션한다.
기반 세트를 인간 주석 추가 혹은 GPT-4 또는 Llama-2 70B Chat으로 생성된 합성 샘플(기본 샘플당 9개)로 보강한다.
고정된 아키텍처(intfloat/e5-base, 110M 매개변수)와 AdamW 옵티마이저를 사용해 10 에폭 학습하고, 보류된 테스트 세트에서 macro F1 및 정확도로 평가한다.
합성 보강 전에 기반 세트의 소수 클래스들을 오버샘플링해 클래스 불균형을 해결한다.
동일한 프롬프트를 활용해 GPT-4 및 Llama-2 70B Chat의 제로샷 분류와 모델들을 과제별로 비교한다.

실험 결과

연구 질문

RQ1다른 수준의 복잡성을 갖는 과제들에서 인간 라벨링 데이터 versus LLM 생성 보강 데이터로 학습될 때 모델 성능은 어떻게 달라지는가?
RQ2다중 클래스 과제에서 희귀 클래스에 대한 LLM 생성 보강이 크라우드소싱 데이터에 비해 성능을 향상시키는가?
RQ310개의 CSS 분류 과제에서 제로샷 LLM의 성능은 라벨링 데이터로 학습된 모델과 어떻게 비교되는가?

주요 결과

인간 주석 모델은 일반적으로 이진 균형 작업 및 특정 다중 클래스 균형 작업에서 합성 보강 모델 및 제로샷 모델보다 우수하다.
LLM 보강은 주로 복잡하고 불균형한 다중 클래스 작업 및 희귀 클래스에서 이점을 제공하며, 때로는 크라우드소싱 데이터보다도 나은 성능을 보인다.
제로샷 성능은 작업 의존적이며 종종 보통 크기의 라벨링 또는 합성 보강 데이터 세트로 학습된 모델에 의해 능가되기도 한다; GPT-4와 Llama-2는 작업별로 다양한 강점을 보인다.
Llama-2 합성 데이터가 GPT-4 데이터보다 더 다양한 어휘적 구성을 가질 수 있어 감정과 같은 일부 작업의 성능에 영향을 준다.
합성 보강은 특히 희귀 클래스에 대한 실제 예제가 얻기 어려울 때 가치가 있을 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.