QUICK REVIEW

[논문 리뷰] Whose Opinions Do Language Models Reflect?

Shibani Santurkar, Esin Durmus|arXiv (Cornell University)|2023. 03. 30.

Topic Modeling인용 수 96

한 줄 요약

본 논문은 OpinionQA를 도입하여 언어 모델이 US 대중 의견 및 인구통계학적 그룹을 반영하는지 여부를 정량화하고, 상당한 불일치와 제한된 조정 가능성을 드러낸다.

ABSTRACT

Language models (LMs) are increasingly being used in open-ended contexts, where the opinions reflected by LMs in response to subjective queries can have a profound impact, both on user satisfaction, as well as shaping the views of society at large. In this work, we put forth a quantitative framework to investigate the opinions reflected by LMs -- by leveraging high-quality public opinion polls and their associated human responses. Using this framework, we create OpinionsQA, a new dataset for evaluating the alignment of LM opinions with those of 60 US demographic groups over topics ranging from abortion to automation. Across topics, we find substantial misalignment between the views reflected by current LMs and those of US demographic groups: on par with the Democrat-Republican divide on climate change. Notably, this misalignment persists even after explicitly steering the LMs towards particular demographic groups. Our analysis not only confirms prior observations about the left-leaning tendencies of some human feedback-tuned LMs, but also surfaces groups whose opinions are poorly reflected by current LMs (e.g., 65+ and widowed individuals). Our code and data are available at https://github.com/tatsu-lab/opinions_qa.

연구 동기 및 목표

언어 모델이 자유로운 서술 맥락에서 어떤 인간의 의견을 반영하는지 체계적으로 연구할 필요성을 동기 부여한다.
공공 여론 조사 를 활용하여 다양한 인구통계 학적 그룹에 대한 LM 응답을 비교하는 확장 가능한 프레임워크를 만든다.
Pew Research ATP 설문에서 OpinionQA를 구축하여 60개 인구통계 그룹 간의 분포 비교를 가능하게 한다.
대표성, 조정 가능성, 일관성에 대해 다양한 크기의 LM과 학습 방식(base vs HF-tuned)을 평가한다.
책임 있는 배포 및 향후 모델 정렬 노력에 관한 통찰을 제시한다.

제안 방법

공공 여론 조사를 탐침으로 사용하여 다지선다 프롬프트를 통해 LM 의견을 추출한다.
답변 선택지에 대한 다음 토큰 로그 확률을 분석하여 설문 질문을 LM 의견 분포로 변환한다.
서수형 답변 선택지를 고려하기 위해 1-Wasserstein 거리로 LM 분포를 인간 분포와 비교한다.
대표성을 LM 의견과 모집단 또는 집단 분포 간의 평균 정렬 정도로 정의한다.
타깃 인구통계 그룹을 모방하도록 프롬프트를 제공하고 정렬성을 재평가하여 조정 가능성을 평가한다.
주제별로 LM이 어떤 인구통계 그룹과의 정합성을 보이는지 비교하여 주제 수준의 일관성을 분석한다.

실험 결과

연구 질문

RQ1LM 기본 의견이 일반 US 인구 또는 특정 인구통계 그룹과 일치할 수 있는가?
RQ2프롬프트가 어느 정도 LM을 선택된 인구통계 그룹의 의견을 반영하도록 조정할 수 있는가?
RQ3다양한 주제에서 LM 의견이 일관되는가 아니면 주제에 따라 달라지는가?
RQ4기본 LM과 HF-tuned LM은 대표성, 조정 가능성, 일관성에서 어떻게 비교되는가?

주요 결과

현행 LMs는 주제에 걸쳐 일반 US 인구의 의견과 상당한 불일치를 보이며, 논쟁 이슈에서 주요 인구통계 그룹 간의 차이에 비견된다.
HF-tuned 모델은 일부 기본 모델보다 일반 대중의 대표성 측면에서 덜 대표적인 경향이 있으며, 진보적이거나 학력 높고 고소득 그룹으로의 이동이 나타난다.
조정 가능성은 표적 그룹에 대한 정렬을 다소 개선하지만 대표성 격차를 해결하지는 못하며, 대부분 그룹에서 개선은 제한적이다.
일부 그룹(예: 65세 이상, 몰몬, 미망인)은 모든 모델에서 잘 대표되지 않아 인구통계 커버리지의 공백을 나타낸다.
LM의 의견은 주제에 따라 동일한 그룹과 항상 일치하지 않으며 맥락 의존적 왜곡을 나타낸다.
Text-davinci-003은 일부 주제에서 매우 모달하고 보수적인 패턴을 보이며, 다양한 의견보다 지배적 견해의 과다 표현을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.