QUICK REVIEW

[論文レビュー] Whose Opinions Do Language Models Reflect?

Shibani Santurkar, Esin Durmus|arXiv (Cornell University)|Mar 30, 2023

Topic Modeling被引用数 96

ひとこと要約

本論文は OpinionQA を導入し、言語モデルが米国の世論および人口統計グループをどの程度反映するか、あるいは逸脱するかを定量化し、重大な乖離と限定的な誘導可能性があることを明らかにする。

ABSTRACT

Language models (LMs) are increasingly being used in open-ended contexts, where the opinions reflected by LMs in response to subjective queries can have a profound impact, both on user satisfaction, as well as shaping the views of society at large. In this work, we put forth a quantitative framework to investigate the opinions reflected by LMs -- by leveraging high-quality public opinion polls and their associated human responses. Using this framework, we create OpinionsQA, a new dataset for evaluating the alignment of LM opinions with those of 60 US demographic groups over topics ranging from abortion to automation. Across topics, we find substantial misalignment between the views reflected by current LMs and those of US demographic groups: on par with the Democrat-Republican divide on climate change. Notably, this misalignment persists even after explicitly steering the LMs towards particular demographic groups. Our analysis not only confirms prior observations about the left-leaning tendencies of some human feedback-tuned LMs, but also surfaces groups whose opinions are poorly reflected by current LMs (e.g., 65+ and widowed individuals). Our code and data are available at https://github.com/tatsu-lab/opinions_qa.

研究の動機と目的

オープンエンドな文脈で言語モデルがどの人間の意見を反映するのかを体系的に研究する必要性を動機づける。
世論調査を活用して、多様な人口統計グループとLMの応答を比較するためのスケーラブルなフレームワークを作る。
Pew Research ATP 調査票から OpinionQA を構築し、60 の人口統計グループ間での分布比較を可能にする。
代表性、誘導可能性、整合性におけるさまざまなサイズのLM および学習手法（base と HF-tuned）の評価。
責任あるデプロイメントと将来のモデル整合性の取り組みを導くための洞察を提供する。

提案手法

公開世論調査をプローブとして用い、複数選択のプロンプトを通じてLMの意見を抽出する。
回答選択肢の次トークン対数確率を分析して、調査質問をLMの意見分布に変換する。
1-ワッサースタイン距離を用いて、順位付きの回答選択肢を考慮しつつ、LM分布を人間分布と比較する。
代表性を、LMの意見と母集団またはグループ分布との平均的整合として定義する。
標的な人口統計グループを模倣するようにLMをプロンプトして整合性を再評価することにより、誘導可能性を評価する。
トピックごとにLMがどの人口統計グループと整合するかを比較して、トピックレベルの一貫性を分析する。

実験結果

リサーチクエスチョン

RQ1LMのデフォルトの意見は一般的な米国全体の人口や特定の人口統計グループと一致するか？
RQ2プロンプティングにより、選択された人口統計グループの意見を反映させる方向へLMをどの程度導くことができるか？
RQ3LMの意見は異なるトピック間で一貫しているか、それともトピックごとに異なるのか？
RQ4base LM と HF-tuned LM はどのように比較されるか（代表性、誘導可能性、整合性の観点から）？

主な発見

現在のLMは、トピックを横断して一般的な米国人口の意見と重大な乖離を示しており、論争のある問題における主要な人口統計グループ間の差と同程度である。
HF-tuned モデルは、いくつかの base モデルよりも一般の人口を代表する傾向が低く、リベラルで教育を受けた、より高所得層への偏りが生じる。
誘導可能性は、ターゲットグループへの整合性をわずかに改善するが、代表性のギャップを解消するには至らず、ほとんどのグループで改善は限定的。
いくつかのグループ（例：65歳以上、モルモン、死別者）はすべてのモデルで乏しく代表されておらず、人口統計のカバーギャップを示している。
LMの意見は、トピック間で同じグループと整合するかどうかが一貫していないことを示しており、文脈依存の歪みを示している。
Text-davinci-003 は、いくつかのトピックで高いモーダル性と保守的なパターンを示し、多様な意見よりも支配的な見解が過剰に代表されていることを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。