Skip to main content
QUICK REVIEW

[논문 리뷰] The Parrot Dilemma: Human-Labeled vs. LLM-augmented Data in Classification Tasks

Anders Giovanni Møller, Jacob Aarup Dalsgaard|arXiv (Cornell University)|2023. 04. 26.
Machine Learning and Data Classification인용 수 26
한 줄 요약

본 논문은 인간 라벨링 데이터와 GPT-4 및 Llama-2 보강 데이터를 10개의 CSS 분류 작업에 걸쳐 비교하고, 보통 인간이 더 우수한 성능을 보이지만 희귀 클래스와 복잡한 작업에서 LLM 보강의 이점이 있음을 보인다; 제로샷 LLM은 종종 라벨링된 데이터로 학습된 모델에 비해 성능이 떨어진다.

ABSTRACT

In the realm of Computational Social Science (CSS), practitioners often navigate complex, low-resource domains and face the costly and time-intensive challenges of acquiring and annotating data. We aim to establish a set of guidelines to address such challenges, comparing the use of human-labeled data with synthetically generated data from GPT-4 and Llama-2 in ten distinct CSS classification tasks of varying complexity. Additionally, we examine the impact of training data sizes on performance. Our findings reveal that models trained on human-labeled data consistently exhibit superior or comparable performance compared to their synthetically augmented counterparts. Nevertheless, synthetic augmentation proves beneficial, particularly in improving performance on rare classes within multi-class tasks. Furthermore, we leverage GPT-4 and Llama-2 for zero-shot classification and find that, while they generally display strong performance, they often fall short when compared to specialized classifiers trained on moderately sized training sets.

연구 동기 및 목표

  • 분류 과제에서 인간 주석에 의존해야 할 때와 LLM 생성 보강에 의존해야 할 때를 가리키는 실행 가능한 지침을 계산 사회과학(CSS) 실무자들에게 제공한다.
  • 다양한 복잡성과 클래스 균형을 갖는 과제들에 대해 인간-라벨링 데이터로 학습된 모델과 LLM 보강 데이터로 학습된 모델의 성능을 평가한다.
  • 다른 데이터 소스에서 학습된 지도 학습 모델에 비해 GPT-4와 Llama-2의 제로샷 성능을 평가한다.

제안 방법

  • 작업별로 10%의 기반 크라우드소싱 세트로 시작하여 저자원 라벨링을 시뮬레이션한다.
  • 기반 세트를 인간 주석 추가 혹은 GPT-4 또는 Llama-2 70B Chat으로 생성된 합성 샘플(기본 샘플당 9개)로 보강한다.
  • 고정된 아키텍처(intfloat/e5-base, 110M 매개변수)와 AdamW 옵티마이저를 사용해 10 에폭 학습하고, 보류된 테스트 세트에서 macro F1 및 정확도로 평가한다.
  • 합성 보강 전에 기반 세트의 소수 클래스들을 오버샘플링해 클래스 불균형을 해결한다.
  • 동일한 프롬프트를 활용해 GPT-4 및 Llama-2 70B Chat의 제로샷 분류와 모델들을 과제별로 비교한다.

실험 결과

연구 질문

  • RQ1다른 수준의 복잡성을 갖는 과제들에서 인간 라벨링 데이터 versus LLM 생성 보강 데이터로 학습될 때 모델 성능은 어떻게 달라지는가?
  • RQ2다중 클래스 과제에서 희귀 클래스에 대한 LLM 생성 보강이 크라우드소싱 데이터에 비해 성능을 향상시키는가?
  • RQ310개의 CSS 분류 과제에서 제로샷 LLM의 성능은 라벨링 데이터로 학습된 모델과 어떻게 비교되는가?

주요 결과

  • 인간 주석 모델은 일반적으로 이진 균형 작업 및 특정 다중 클래스 균형 작업에서 합성 보강 모델 및 제로샷 모델보다 우수하다.
  • LLM 보강은 주로 복잡하고 불균형한 다중 클래스 작업 및 희귀 클래스에서 이점을 제공하며, 때로는 크라우드소싱 데이터보다도 나은 성능을 보인다.
  • 제로샷 성능은 작업 의존적이며 종종 보통 크기의 라벨링 또는 합성 보강 데이터 세트로 학습된 모델에 의해 능가되기도 한다; GPT-4와 Llama-2는 작업별로 다양한 강점을 보인다.
  • Llama-2 합성 데이터가 GPT-4 데이터보다 더 다양한 어휘적 구성을 가질 수 있어 감정과 같은 일부 작업의 성능에 영향을 준다.
  • 합성 보강은 특히 희귀 클래스에 대한 실제 예제가 얻기 어려울 때 가치가 있을 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.