QUICK REVIEW

[논문 리뷰] Multi-Perspective LLM Annotations for Valid Analyses in Subjective Tasks

Navya Mehrotra, Adam Visokay|arXiv (Cornell University)|2026. 03. 22.

Topic Modeling인용 수 0

한 줄 요약

이 논문은 Perspective-Driven Inference (PDI)를 제시합니다. 이는 소량의 인간 입력과 함께 대형 언어 모델(LLM) 주석을 활용하여 주관적 과제에서 집단별 주석 평균을 추정하고, 인구 통계학적 그룹 간의 이견을 보존하며 모델링이 어려운 관점을 개선하는 적응 샘플링 프레임워크입니다.

ABSTRACT

Large language models are increasingly used to annotate texts, but their outputs reflect some human perspectives better than others. Existing methods for correcting LLM annotation error assume a single ground truth. However, this assumption fails in subjective tasks where disagreement across demographic groups is meaningful. Here we introduce Perspective-Driven Inference, a method that treats the distribution of annotations across groups as the quantity of interest, and estimates it using a small human annotation budget. We contribute an adaptive sampling strategy that concentrates human annotation effort on groups where LLM proxies are least accurate. We evaluate on politeness and offensiveness rating tasks, showing targeted improvements for harder-to-model demographic groups relative to uniform sampling baselines, while maintaining coverage.

연구 동기 및 목표

주관적 과제에서 단일 정답으로 합치기보다는 주석자의 이견을 보존할 필요성에 대해 동기 부여합니다.
다각적 관점의 말뭉치 추론을 그룹별 평균의 벡터 추정으로 형식화합니다.
LLM 프록시의 정확도가 낮은 그룹에 인간 주석을 집중시키는 적응 샘플링 전략을 개발합니다.
부정확한 추정에 대한 부호역 확보다를 기반으로 한 아이피더블리(IPW) 추정기를 제시하고 부트스트랩 기반 신뢰구간을 확보하여 그룹 수준의 유효한 추론을 제공합니다.

제안 방법

텍스트 T_i가 K개의 그룹으로 구성된 인구통계학적 그룹 d_i의 주석자에 의해 주석 처리되는 설정을 정의하고, theta* = (theta*_g1, ..., theta*_gK) 추정을 목표로 합니다.
저렴한 프록시로서의 LLM 주석을 사용하고 인구통계학적 특징으로부터 hat{err}_i(d_i) 를 학습하여 인간 주석의 적응 샘플링을 안내하며, 배치 기반 업데이트 전에 버닝-인 단계를 수행합니다.
hat{err}_i를 사용하여 pi_i에 비례하도록 인간 주석 H_i를 수집하고 배치 내에서 정규화한 후 누적 데이터로 hat{err}_i를 업데이트합니다.
역확률가중(IPW) 보정 추정기를 통해 theta*_gk를 추정하고 부트스트랩(Zrnic & Candès, 2024)을 통해 신뢰구간을 얻습니다.
PDI를 기본선과 비교합니다: LLM-전용(제로/소샷, 페르소나 프롬프트) 및 PPI(균등 샘플링)와의 비교를 통해 커버리지를 보장하고 인구통계학적 그룹 간의 델타(평균 절대 오차)를 평가합니다.

Figure 1: Overview of the Perspective-Driven Inference . Starting from a corpus of $n$ texts, we collect LLM annotations, initialize human annotation via uniform sampling, and then enter an adaptive loop that predicts LLM error from demographic features, sampling human annotations across groups. The

실험 결과

연구 질문

RQ1주관적 과제에서 인구통계학적 관점을 보존하는 그룹별 주석 평균 벡터를 추정할 수 있을까요?
RQ2적응적이고 오차 기반의 인간 주석 배치가 균일 샘플링이나 LLM-전용 기준에 비해 정확도를 높이고 모델링이 어려운 그룹에 대한 유효한 커버리지를 유지할 수 있을까요?
RQ3Perspective-Driven Inference가 예의 수준과 모욕성 평가 과제 및 합성 데이터에서 어떻게 작동합니까?

주요 결과

PDI는 예의 과제에서 연령대 50세 이상에서 delta가 가장 큰 개선을 보이며, Delta( PDI 11.23% 대 최고 LLM-전용 16.31% ).
PDI는 연령대 중 예의에서 평균 델타가 가장 낮으며, 특히 연령 50+에서(11.23% 대 PPI 13.63%).
모욕성에서 LLM-전용 방법은 커버리지 및 델타에서 저조하지만 PDI와 PPI는 연령대 전반에서 95.0% 커버리지를 유지하고, 연령 50+에서 PDI의 delta가 5.24%에 도달하는 반면 LLM-전용 변형은 24% 이상.
PDI는 더 어려운 그룹(예: 연령 50+)에 더 많은 인간 주석을 할당하여 예의에서 균일 샘플링보다 33% 증가, 모욕성에서 50+ 세그먼트에서 19% 증가를 보였습니다.
합성 데이터 실험은 인간 예산이 20%를 넘고 LLM 성능의 그룹 간 차이가 큰 경우 적응적 샘플링이 이점을 가지며, 편향이 심하고 모형화가 어려운 그룹일수록 더 큰 이득을 보임을 시사합니다.

Figure 2: Annotation distributions vary across demographic groups. Human ratings for politeness (top) and offensiveness (bottom) broken down by annotator demographics. Variation across groups motivates estimating a vector of group-specific means rather than a single aggregate.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.