[논문 리뷰] The PRISM Alignment Dataset: What Participatory, Representative and Individualised Human Feedback Reveals About the Subjective and Multicultural Alignment of Large Language Models
PRISM은 75개국에 걸친 1,500명의 참가자를 21개 모델과의 8,011건의 라이브 LLM 대화에 연결하는 다양하고 참여형 데이터셋을 도입하여 주관적이고 다문화적 정렬 및 개인화 효과를 분석할 수 있게 한다.
Human feedback is central to the alignment of Large Language Models (LLMs). However, open questions remain about methods (how), domains (where), people (who) and objectives (to what end) of feedback processes. To navigate these questions, we introduce PRISM, a dataset that maps the sociodemographics and stated preferences of 1,500 diverse participants from 75 countries, to their contextual preferences and fine-grained feedback in 8,011 live conversations with 21 LLMs. With PRISM, we contribute (i) wider geographic and demographic participation in feedback; (ii) census-representative samples for two countries (UK, US); and (iii) individualised ratings that link to detailed participant profiles, permitting personalisation and attribution of sample artefacts. We target subjective and multicultural perspectives on value-laden and controversial issues, where we expect interpersonal and cross-cultural disagreement. We use PRISM in three case studies to demonstrate the need for careful consideration of which humans provide what alignment data.
연구 동기 및 목표
- 1,500명의 참가자의 사회인구학적 특성과 명시된 선호를 21개 모델에 걸친 8,011건의 라이브 LLM 대화에서의 맥락 피드백과 맵핑한다.
- 참여적이고 대표적이며 개인화된 피드백이 정렬(norm) 규범과 모델 행동에 어떤 영향을 미치는지 조사한다.
- 대화 다양성, 선호 다양성, 그리고 복지 결과를 검토하여 정렬에서의 문화 간 불일치와 분배 효과를 이해한다.
제안 방법
- 두 단계 데이터 수집: (i) 인구통계 및 선호를 포착하는 설문조사; (ii) 모델 출력에 대한 미세하고 측정 가능한 피드백이 포함된 라이브, 모델-루프 대화.
- 주관적 선호의 강도를 허용하기 위한 모델 응답에 대한 기본 숫자 등급 척도(1-100).
- 각 등급을 가명 참가자 ID 및 프로필과 연결하여 귀속 및 편향 분석을 수행.
- 상업용 및 오픈액세스 제공업체를 망라하는 21개 이상의 모델에서 이질적인 정렬 규범을 포착하기 위해.
- 대화 타입에는 비지도, 가치 기반, 논쟁 기반 프롬프트를 포함하여 객관적-주관적 스펙트럼을 커버한다.
- 보상과 함께 윤리적 승인을 받고 동의를 얻으며; Dynabench 기반 인터페이스를 통한 데이터 수집.
실험 결과
연구 질문
- RQ1인구통계학적 및 문화적 요인이 사람들이 LLM에 제안하는 주제에 어떤 영향을 미치는가?
- RQ2개인적 선호와 맥락적 조건이 다양한 인구에서 모델 정렬 판단에 어떤 영향을 미치는가?
- RQ3더 크고 더 대표적인 참가자 표본이 한 사회에서 선호 모델을 선택할 때 다른 복지 결과를 낳는가?
- RQ4샘플 산물의 개인화 및 귀속이 정렬 규범 이해에 미치는 영향은 무엇인가?
주요 결과
- 정체성과 인구통계는 시작 주제를 부분적으로 예측하지만, 많은 주제가 교차적 인구통계학적 특성에서 군집한다.
- 모델 순위는 특이적 요인과 대화 맥락에 민감하여 주관적 변화 하에서 순위표의 안정성을 어렵게 한다.
- 더 크고 대표적인 참가자 표본은 배분적 복지 결과를 개선하며, 특히 소수 집단에 대해 그렇다.
- 이 데이터셋은 개인화된 정렬 및 의견 분포를 요약하는 다원주의적 접근 방식을 분석할 수 있게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.