[논문 리뷰] Large Language Models for Data Annotation and Synthesis: A Survey
본 설문은 대형 언어 모델(LLM)을 데이터 주석화 및 합성에 어떻게 활용할 수 있는지 분석하며, 방법론, 평가, LLM 생성 주석으로 학습, 그리고 도전과제를 다룹니다.
Data annotation and synthesis generally refers to the labeling or generating of raw data with relevant information, which could be used for improving the efficacy of machine learning models. The process, however, is labor-intensive and costly. The emergence of advanced Large Language Models (LLMs), exemplified by GPT-4, presents an unprecedented opportunity to automate the complicated process of data annotation and synthesis. While existing surveys have extensively covered LLM architecture, training, and general applications, we uniquely focus on their specific utility for data annotation. This survey contributes to three core aspects: LLM-Based Annotation Generation, LLM-Generated Annotations Assessment, and LLM-Generated Annotations Utilization. Furthermore, this survey includes an in-depth taxonomy of data types that LLMs can annotate, a comprehensive review of learning strategies for models utilizing LLM-generated annotations, and a detailed discussion of the primary challenges and limitations associated with using LLMs for data annotation and synthesis. Serving as a key guide, this survey aims to assist researchers and practitioners in exploring the potential of the latest LLMs for data annotation, thereby fostering future advancements in this critical field.
연구 동기 및 목표
- NLP 작업 전반에서 데이터 주석화를 자동화하고 개선하기 위해 LLM의 활용을 촉진한다.
- LLM 기반 데이터 주석 방법론과 프롬프트 전략의 분류체계를 제시한다.
- LLM 생성 주석으로 학습된 모델 또는 주석으로 학습된 모델의 학습 패러다임을 검토한다.
- LLM 생성 주석에 대한 평가 기법과 고품질 샘플 선택 방법을 논의한다.
- 데이터 주석화를 위한 LLM 배치에서의 도전과제와 윤리적 고려사항을 식별한다.
제안 방법
- LLMs를 주석가(annotator)로, 기존 모델을 학습자(learners)로 두는 주석자 모델과 작업-학습자 모델을 정의한다.
- 수동으로 설계된 프롬프트, 쌍대 피드백을 통한 정렬, 그리고 프롬프트 기법(IO, ICL, CoT, IT, AT)을 포함한 LLM 기반 데이터 주석 방법의 분류를 제시한다.
- 직접 사용, 지식 증류, 미세 조정/프롬프트 방법을 포함한 LLM 생성 주석으로 학습을 설명한다.
- 인간 주도 및 자동화 방법을 포함한 LLM 생성 주석에 대한 평가 프레임워크를 논의하고, LLM을 취득 함수나 오라클 주석자로 활용한 능동 학습을 다룬다.
- 환각, 샘플링 편향, 노동 대체, 사회적 영향과 같은 도전과 윤리적 고려사항을 요약한다.
실험 결과
연구 질문
- RQ1NLP 태스크에서 LLM을 주석가로 활용하는 주요 방법론은 무엇인가?
- RQ2LLM 생성 주석은 어떻게 평가되고 학습 파이프라인에 통합될 수 있는가?
- RQ3데이터 주석 작업을 위한 프롬핑, 파인튜닝, LLM 정렬에 대한 모범 사례는 무엇인가?
- RQ4LLM 기반 데이터 주석 시스템을 배치할 때 어떤 도전과제와 윤리적 고려사항이 제기되는가?
주요 결과
- LLMs는 전통적인 레이블를 넘어 보조 신호를 제공함으로써 데이터 주석화를 자동화하고 향상시킬 수 있다.
- 포괄적인 분류체계는 수작업으로 설계된 프롬프트에서 정렬-튜닝 및 지시-튜닝 전략에 이르는 방법들을 포괄한다.
- LLM 생성 주석은 감독 학습에 직접 사용되거나, 소형 모델로의 지식 증류에 사용되거나, 다운스트림 모델을 미세 조정/프롬프트하는 데 사용될 수 있다.
- 획득 함수나 오라클 주석자로서의 LLM을 이용한 능동 학습은 샘플 효율성을 향상시킬 수 있다.
- LLM 생성 주석의 평가는 인간 벤치마크, 과제 특이 메트릭, 능동 학습과 같은 데이터 선택 전략을 포함한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.