[논문 리뷰] AI-Augmented Surveys: Leveraging Large Language Models and Surveys for Opinion Prediction
본 논문은 General Social Survey(GSS)에서 오픈 LLM을 미세 조정하여 의견 예측을 개인화하고, 질문, 신념, 시간에 대한 임베딩을 통해 결측 보정(imputation), 회고 예측(retrodiction), 비질문 의견 예측을 가능하게 하며, 설문 가중치를 사용한 모집단 수준 집계를 수행한다.
Large language models (LLMs) that produce human-like responses have begun to revolutionize research practices in the social sciences. We develop a novel methodological framework that fine-tunes LLMs with repeated cross-sectional surveys to incorporate the meaning of survey questions, individual beliefs, and temporal contexts for opinion prediction. We introduce two new emerging applications of the AI-augmented survey: retrodiction (i.e., predict year-level missing responses) and unasked opinion prediction (i.e., predict entirely missing responses). Among 3,110 binarized opinions from 68,846 Americans in the General Social Survey from 1972 to 2021, our models based on Alpaca-7b excel in retrodiction (AUC = 0.86 for personal opinion prediction, $ρ$ = 0.98 for public opinion prediction). These remarkable prediction capabilities allow us to fill in missing trends with high confidence and pinpoint when public attitudes changed, such as the rising support for same-sex marriage. On the other hand, our fine-tuned Alpaca-7b models show modest success in unasked opinion prediction (AUC = 0.73, $ρ$ = 0.67). We discuss practical constraints and ethical concerns regarding individual autonomy and privacy when using LLMs for opinion prediction. Our study demonstrates that LLMs and surveys can mutually enhance each other's capabilities: LLMs can broaden survey potential, while surveys can improve the alignment of LLMs.
연구 동기 및 목표
- GSS와 같은 반복적 횡단면 설문에서 측정되지 않은 공적 의견을 예측해야 할 필요성을 동기 부여한다.
- 질문 의미론, 개인 신념 임베딩, 시간 맥락 임베딩을 사용하여 LLM을 개인화하는 프레임워크를 제안한다.
- 미세 조정된 LLM이 결측 또는 비질문 설문 응답을 예측하고 설문 가중치를 사용하여 결과를 대표적으로 집계할 수 있음을 보여준다.
- 일반 LLM 및 전통적 임퓨테이션 방법과 대조하여 결측 데이터 시나리오에서 예측 정확도가 향상됨을 보인다.
제안 방법
- 1972–2021년의 3,110개의 이진화된 GSS 질문을 68,846명의 개인에 대해 오픈 소스 LLM(Alpaca-7b, GPT-J-6b, RoBERTa-large)을 미세 조정한다.
- 각 예측을 세 가지 임베딩으로 표현한다: 설문 질문의 의미 임베딩, 개인 신념 임베딩, 그리고 시간 기간 임베딩.
- 임베딩 간 고차 상호 작용을 모델링하고 이진 응답을 예측하기 위해 Deep Cross Network(DCN) 아키텍처를 사용한다.
- 미세 조정 중에 질문 의미, 개인 신념, 그리고 기간 임베딩을 반복적으로 최적화하여 LLM 출력이 관찰된 응답 패턴과 일치하도록 한다.
- 표본 편향을 보정하기 위해 설문 가중치를 사용하여 개인 예측을 모집단 수준으로 집계한다.
- AUC, 정확도, F1-score를 사용하여 세 가지 결측 데이터 작업(임퓨테이션, 회고 예측, 비질문 의견)에 대해 10-겹 교차 검증으로 평가한다.
실험 결과
연구 질문
- RQ1미측정 질문에 대해 세밀하게 조정된 LLM이 전국적으로 대표적인 패널에서 개인 설문 응답을 정확하게 예측할 수 있는가?
- RQ2설문 질문, 개인 신념, 시간 기간의 임베딩이 표준 LLM 프롬프트나 전통적 임퓨테이션보다 예측 성능을 향상시키는가?
- RQ3임퓨테이션, 회고 예측, 비질문 의견 등 다양한 결측 데이터 시나리오와 MCAR, MAR, MNAR 등의 결측 데이터 메커니즘에서 접근 방식의 성능은 어떠한가?
- RQ4설문 가중치를 통한 모집단 수준 집계가 개인화된 예측으로부터 대표적인 여론을 회복하는 데 충분한가?
주요 결과
- 테스트된 LLM 중 Alpaca-7b가 세 가지 예측 작업 모두에서 가장 우수한 성능을 보였다.
- 결측 데이터 임퓨테이션의 경우 최적 모델이 강한 예측 정확도(AUC 약 0.87)를 달성했고, 다양한 결측 데이터 메커니즘 하에서 행렬 인수분해 기반 기준선을 능가했다.
- 데이터가 무작위로 결측되지 않은 경우(MNAR)에도 이 방법은 행렬 분해에 비해 우수한 성능을 유지한다.
- 개인 신념 및 설문 기간 맥락에 대한 개인화된 임베딩은 의견의 이질성과 시간적 변화를 포착하게 하여 비개인화 대조선에 비해 예측을 개선한다.
- 이 프레임워크는 연도 수준의 결측 의견에 대한 회고 예측을 가능하게 하여 역사적 태도 동향과 공공 태도 변화의 잠재적 전환을 재구성할 수 있다(예: 동성 결혼).
- 모델 평가에는 다중 지표(AUC, 정확도, F1)와 설문 가중치를 통한 모집단 수준 예측을 사용한 10-겹 교차 검증이 사용되었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.