QUICK REVIEW

[論文レビュー] The PRISM Alignment Dataset: What Participatory, Representative and Individualised Human Feedback Reveals About the Subjective and Multicultural Alignment of Large Language Models

Hannah Rose Kirk, Alexander Whitefield|arXiv (Cornell University)|Apr 24, 2024

Natural Language Processing Techniques被引用数 5

ひとこと要約

PRISMは、75か国にまたがる1,500人の参加者を、21モデルとともに8,011のライブLLM対話へ結びつける多様で参加型のデータセットを導入し、主観的・多文化的な整合性とパーソナライズ効果の分析を可能にします。

ABSTRACT

Human feedback is central to the alignment of Large Language Models (LLMs). However, open questions remain about methods (how), domains (where), people (who) and objectives (to what end) of feedback processes. To navigate these questions, we introduce PRISM, a dataset that maps the sociodemographics and stated preferences of 1,500 diverse participants from 75 countries, to their contextual preferences and fine-grained feedback in 8,011 live conversations with 21 LLMs. With PRISM, we contribute (i) wider geographic and demographic participation in feedback; (ii) census-representative samples for two countries (UK, US); and (iii) individualised ratings that link to detailed participant profiles, permitting personalisation and attribution of sample artefacts. We target subjective and multicultural perspectives on value-laden and controversial issues, where we expect interpersonal and cross-cultural disagreement. We use PRISM in three case studies to demonstrate the need for careful consideration of which humans provide what alignment data.

研究の動機と目的

1,500人の参加者の社会人口統計と明示的な嗜好を、21モデルにわたる8,011件のライブLLM対話における文脈フィードバックへ対応付ける。
参加型・代表的・個別化されたフィードバックが整合性の規範とモデルの挙動にどのように影響するかを調査する。
対話の多様性、嗜好の多様性、福祉アウトカムを検討し、整合性における異文化間の対立と分配的効果を理解する。

提案手法

二段階のデータ収集: (i) 人口統計と嗜好を捉える調査; (ii) モデル出力に対する細粒度の尺度付き定量フィードバックを伴う、ライブのモデル・イン・ザ・ループ対話。
カードナル評価スケール（1-100）で、主観的嗜好の強度を許容。
各評価を仮名化された参加者IDとプロフィールに結び付け、帰属とバイアス分析を可能にする。
商用およびオープンアクセス提供者を跨ぐ21モデル以上で、異質な整合性規範を捉える。
無指示、価値観指向、論争指向のプロンプトを含む対話タイプで、客観-主観の連続スペクトルを網羅する。
倫理承認と同意、報酬付き; Dynabenchベースのインターフェースを介したデータ収集。

実験結果

リサーチクエスチョン

RQ1人口統計学的・文化的要因は、個人がLLMsに対して発話するトピックにどのように影響するか？
RQ2個別の嗜好と文脈条件は、多様な集団におけるモデルの整合性判断にどのように影響するか？
RQ3より大規模でより代表的な参加者サンプルは、集団に最適とされるモデルを選択する際に異なる福祉アウトカムを生み出すか？
RQ4個別化とサンプルアーティファクトの帰属が整合性の規範の理解に及ぼす影響は何か？

主な発見

アイデンティティと人口統計は開示トピック選択を部分的に予測するが、多くのトピックは交差的な人口統計にまたがってクラスタリングされる。
モデルのランキングは、個別的要因と対話文脈に敏感で、主観的な変化の下でリーダーボードの安定性を難しくする。
より大きく、より代表的な参加者サンプルは、分配的な福祉アウトカムを改善し、特に少数派グループにとって有利である。
このデータセットは、個別化された整合性と意見分布を要約する多元的アプローチの分析を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。