[論文レビュー] AI-Augmented Surveys: Leveraging Large Language Models and Surveys for Opinion Prediction
この論文は General Social Survey でオープン LLM を微調整し、意見予測を個人化することで、質問・信念・時点の埋め込みを用いた埋込み表現により、埋め込みを用いた質問、信念、時点の埋め込みとサーベイウェイトによる母集団レベルの集計を実現し、欠測値の補完、後向き推定、未質問の意見予測を可能にする。
Large language models (LLMs) that produce human-like responses have begun to revolutionize research practices in the social sciences. We develop a novel methodological framework that fine-tunes LLMs with repeated cross-sectional surveys to incorporate the meaning of survey questions, individual beliefs, and temporal contexts for opinion prediction. We introduce two new emerging applications of the AI-augmented survey: retrodiction (i.e., predict year-level missing responses) and unasked opinion prediction (i.e., predict entirely missing responses). Among 3,110 binarized opinions from 68,846 Americans in the General Social Survey from 1972 to 2021, our models based on Alpaca-7b excel in retrodiction (AUC = 0.86 for personal opinion prediction, $ρ$ = 0.98 for public opinion prediction). These remarkable prediction capabilities allow us to fill in missing trends with high confidence and pinpoint when public attitudes changed, such as the rising support for same-sex marriage. On the other hand, our fine-tuned Alpaca-7b models show modest success in unasked opinion prediction (AUC = 0.73, $ρ$ = 0.67). We discuss practical constraints and ethical concerns regarding individual autonomy and privacy when using LLMs for opinion prediction. Our study demonstrates that LLMs and surveys can mutually enhance each other's capabilities: LLMs can broaden survey potential, while surveys can improve the alignment of LLMs.
研究の動機と目的
- Repeated cross-sectional surveys like the GSS で測定されていない public opinion を予測する必要性を動機づける。
- 質問意味論、個人信念の埋め込み、時系列コンテキストの埋め込みを用いて LLM を個人化するフレームワークを提案する。
- 微調整された LLM が欠測または未質問の調査回答を予測し、サーベイウェイトを用いた母集団レベルの代表的な集計を実証する。
- 従来の vanilla LLM および伝統的な欠測データ補完法と比較して、欠測データシナリオ全体で予測精度の向上を示す。
提案手法
- 3,110 件の binarized GSS 質問(1972–2021)を 68,846 名に対して、オープンソース LLM(Alpaca-7b、GPT-J-6b、RoBERTa-large)で微調整する。
- 各予測を三つの埋め込みで表現する:調査質問の意味論的埋め込み、個人の信念埋め込み、時系列期間埋め込み。
- Deep Cross Network (DCN) アーキテクチャを用いて埋め込み間の高次相互作用をモデル化し、二値応答を予測する。
- 微調整中に質問意味論、個人信念、期間埋め込みを反復的に最適化し、LLM の出力を観測された応答パターンと整合させる。
- サンプルバイアスを補正するため、サーベイウェイトを用いて個々の予測を母集団レベルに集計する。
- 欠測データタスク(補完、後向き推定、未質問の意見)を 10-fold cross-validation で評価し、AUC、Accuracy、F1-score を用いる。
実験結果
リサーチクエスチョン
- RQ1微調整された LLM は nationally representative なパネルにおける測定されていない質問に対して個人の調査回答を正確に予測できるか。
- RQ2質問意味論、個人信念、時間の埋め込みは、標準的な LLM プロンプトや従来の欠測補完より予測精度を改善するか。
- RQ3欠測データのシナリオ(補完、後向き推定、未質問の意見)および異なる欠測機構(MCAR、MAR、MNAR)の下で、アプローチはどの程度機能するか。
- RQ4サーベイウェイトによる母集団レベルの集計は、個別予測から代表的な公共の意見を再現するのに十分か。
主な発見
- Alpaca-7b は、テストした LLM のうち、三つの予測タスクすべてで最も高い性能を示した。
- 欠測データの補完において、最良モデルは強い予測精度を達成(AUC 約0.87)し、さまざまな欠測データ機構の下でマトリクス分解ベースラインを上回った。
- MNAR の場合でも、マトリクス分解より優れた性能を維持する。
- 個人の信念と調査期間の個別埋め込みにより、オピニオンの異質性と時系列の変化を捉え、非個別ベースラインより予測精度が向上する。
- このフレームワークは、年次レベルの欠測意見の後向き推定を可能にし、過去の態度傾向や公衆の態度の潜在的な推移を再構築できる(例:同性愛結婚)。
- モデル評価は 10-fold cross-validation と複数の指標(AUC、Accuracy、F1)およびサーベイウェイトによる母集団レベル予測を用いた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。