[논문 리뷰] Large Language Models as Automatic Annotators and Annotation Adjudicators for Fine-Grained Opinion Analysis
본 논문은 LLMs를 ASTE 및 ACOS의 세밀한 의견 태깅 작업에 대한 자동 주석자로 활용하는 것을 조사하고, 여러 주석을 최종 라벨로 결합하기 위한 선언적 DSPy 기반 파이프라인과 LLM 기반 채점(adjudication) 방법을 도입한다.
Fine-grained opinion analysis of text provides a detailed understanding of expressed sentiments, including the addressed entity. Although this level of detail is sound, it requires considerable human effort and substantial cost to annotate opinions in datasets for training models, especially across diverse domains and real-world applications. We explore the feasibility of LLMs as automatic annotators for fine-grained opinion analysis, addressing the shortage of domain-specific labelled datasets. In this work, we use a declarative annotation pipeline. This approach reduces the variability of manual prompt engineering when using LLMs to identify fine-grained opinion spans in text. We also present a novel methodology for an LLM to adjudicate multiple labels and produce final annotations. After trialling the pipeline with models of different sizes for the Aspect Sentiment Triplet Extraction (ASTE) and Aspect-Category-Opinion-Sentiment (ACOS) analysis tasks, we show that LLMs can serve as automatic annotators and adjudicators, achieving high Inter-Annotator Agreement across individual LLM-based annotators. This reduces the cost and human effort needed to create these fine-grained opinion-annotated datasets.
연구 동기 및 목표
- LLMs를 자동 주석자로 활용하여 미세한 의견 데이터셋(ASTE 및 ACOS)을 생성하는 데 필요한 비용과 인적 노력을 줄인다.
- 제한된 주석 예시로부터 프롬프트를 최적화하기 위해 선언적 파이프라인(DSPy)을 활용하여 프롬프트 엔지니어링의 변동성을 완화한다.
- 주석자 간 불일치를 해소하고 최종 주석을 생성하기 위한 LLM 기반 채점(adjudication) 방법을 제안하고 평가한다.
- 도메인 데이터셋(laptop, restaurant)에서 서로 다른 크기의 LLM이 주석자와 채점자로서 어떤 성능을 보이는지 평가한다.
제안 방법
- 작은 주석 달린 Dev 세트에서 최적화된 프롬프트를 생성하기 위해 선언적 주석 파이프라인(DSPy)을 사용한다.
- 미세 조정 없이 ASTE 및 ACOS 작업에서 다수의 LLM 주석자(세 모델 크기)를 평가한다.
- 입력당 다중 주석을 생성하고 LLM이 이를 최종 주석으로 통합하는 채점 단계를 적용한다(앙상블/스태킹에서 영감을 얻은 방법).
- 인간 주석과의 정밀도, 재현율 및 F1을 보고하고, 주석자 간 합의(inter-annotator agreement, IAA)를 위한 Krippendorff의 알파를 보고한다.
- 요소별 정렬 및 오류 패턴을 분석하여 작업별 도전과제(예: ACOS의 암시적 측면)를 이해한다.

실험 결과
연구 질문
- RQ1미세 조정 없이 LLM이 ASTE 및 ACOS 작업에 대해 신뢰할 수 없는 자동 주석자로 작용할 수 있는가?
- RQ2LLM 기반 채점 단계가 개별 주석자보다 인간 주석과의 일치를 향상시키는가?
- RQ3모델 크기가 ASTE 및 ACOS 설정에서 주석 품질과 IAA에 어떤 영향을 미치는가?
- RQ4ASTE 및 ACOS로 미세한 의견을 주석할 때 주요 오류 유형은 무엇인가?
- RQ5도메인(laptop 대 restaurant)이 ACOS의 주석 난이도와 IAA에 어떤 영향을 미치는가?
주요 결과
- 매개변수 수가 많은 LLM 주석자는 일반적으로 ASTE 및 ACOS 작업에서 인간 주석과의 일치도가 더 높다.
- 채점 단계는 일부 모델 크기와 데이터셋에서 일치를 향상시키며 앙상블 방법처럼 작동한다.
- ACOS의 quadruples는 ASTE의 triplets보다 더 도전적이며 도메인 차이(laptop vs. restaurant)가 정확일치 F1 점수에 영향을 준다.
- IKAA 분석은 Krippendorff의 알파가 모델 크기가 커질수록 증가함을 보여주며 더 큰 모델에서 IAA 신뢰도가 높음을 시사한다.
- 감정 극성 예측은 인간 주석과 가장 잘 일치하는 경향이 있지만, 정확한 대상과 범위를 추출하는 것은 더 큰 도전을 제시한다.
- ACOS 결과는 일부 구성에서 인간 주석과의 편차가 인간 주석과의 편차가 ASTE보다 커 task의 난이도 차이를 시사한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.