[論文レビュー] Can Large Language Models Transform Computational Social Science?
この論文は25のCSSタスクにおける13のLLMsのゼロショット性能をベンチマークし、LLMsはファインチューニングされた分類器を超えることは稀だが、適正なラベリングと有用な生成を提供できる場合があり、人間とAIの協働CSSワークフローを示唆する。
Large Language Models (LLMs) are capable of successfully performing many language processing tasks zero-shot (without training data). If zero-shot LLMs can also reliably classify and explain social phenomena like persuasiveness and political ideology, then LLMs could augment the Computational Social Science (CSS) pipeline in important ways. This work provides a road map for using LLMs as CSS tools. Towards this end, we contribute a set of prompting best practices and an extensive evaluation pipeline to measure the zero-shot performance of 13 language models on 25 representative English CSS benchmarks. On taxonomic labeling tasks (classification), LLMs fail to outperform the best fine-tuned models but still achieve fair levels of agreement with humans. On free-form coding tasks (generation), LLMs produce explanations that often exceed the quality of crowdworkers' gold references. We conclude that the performance of today's LLMs can augment the CSS research pipeline in two ways: (1) serving as zero-shot data annotators on human annotation teams, and (2) bootstrapping challenging creative generation tasks (e.g., explaining the underlying attributes of a text). In summary, LLMs are posed to meaningfully participate in social science analysis in partnership with humans.
研究の動機と目的
- CSS文献を調査して、LLMsが分析を支援できるタスクを特定する。
- 代表的なCSSタスク群に対して複数のLLMsのゼロショット性能を評価する。
- モデルサイズと事前学習がCSSタスクの性能にどう影響するかを分析する。
- CSSのラベリングと分析における人間–AI協働の実践的なロードマップを提供する。
提案手法
- 話者発話レベル、会話レベル、文書レベルの分析を網羅する24の多様なCSSタスクを選定する。
- これらのタスクに対してゼロショット promptingで13の言語モデルを評価する。
- ゼロショットの結果を人手の注釈と、利用可能な場合はファインチューニングされたベースラインと比較する。
- CSSタスクの prompting のベストプラクティスと評価パイプラインを開発する。
- LLMsの説明および再構成機能を評価する生成タスクを実施する。
実験結果
リサーチクエスチョン
- RQ1RQ1 実現性: LLMは信頼できるラベリングで人間の注釈を補完できるか?
- RQ2RQ2 モデル選択: モデルサイズと事前学習はCSSタスクの性能にどう影響するか?
- RQ3RQ3 ドメイン有用性: ゼロショットLLMsは特定のCSS領域で他よりも優れているか?
- RQ4RQ4 機能性: ラベリング(分類)タスクと生成(説明)タスクのどちらに適しているか、あるいは両方か?
主な発見
- Prompted LLMs generally do not match or exceed carefully fine-tuned classifiers, but can achieve fair agreement with human labeling.
- Model performance improves with scale for several tasks, indicating utility in augmentation rather than replacement.
- LLMs can generate explanations that reach or exceed dataset references in quality, coherence, and relevance.
- Humans and LLM outputs are complementary, with humans preferring model outputs about half the time.
- The proposed blended supervised–unsupervised labeling approach can speed and improve CSS text analysis.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。