[論文レビュー] ChatGPT-4 Outperforms Experts and Crowd Workers in Annotating Political Twitter Messages with Zero-Shot Learning
ChatGPT-4 は Twitter 投稿者の政党所属を分類する評価を受け、専門のコーダーおよび MTurk クラウドワーカーを正確性と信頼性で上回り、バイアスは同等または低い、 zero-shot 学習を用いて。
This paper assesses the accuracy, reliability and bias of the Large Language Model (LLM) ChatGPT-4 on the text analysis task of classifying the political affiliation of a Twitter poster based on the content of a tweet. The LLM is compared to manual annotation by both expert classifiers and crowd workers, generally considered the gold standard for such tasks. We use Twitter messages from United States politicians during the 2020 election, providing a ground truth against which to measure accuracy. The paper finds that ChatGPT-4 has achieves higher accuracy, higher reliability, and equal or lower bias than the human classifiers. The LLM is able to correctly annotate messages that require reasoning on the basis of contextual knowledge, and inferences around the author's intentions - traditionally seen as uniquely human abilities. These findings suggest that LLM will have substantial impact on the use of textual data in the social sciences, by enabling interpretive research at a scale.
研究の動機と目的
- Twitter コンテンツから政治的所属を注釈付けする際の ChatGPT-4 の正確性を評価する。
- 実際の政治家のツイートを用いた基準データを使用して、ChatGPT-4 の性能を専門家コーダーおよび MTurk クラウドワーカーと比較する。
- ChatGPT-4 と人間の注釈者との間の信頼性(インターコーダー信頼性)とバイアスを評価する。
- 評価ベースラインとして、2020 年選挙期間の米国上院議員のツイートの基準データセットを使用する。
提案手法
- 2020年米国大統領選挙前の米国上院議員のツイートから、フィルタリング後(リツイート/返信/URL なし、長さ ≥100)で 500 件のツイート(共和党 250、民主党 250)を使用する。
- API 経由で ChatGPT-4 を用いて zero-/few-shot プロンプティングで各ツイートを分類し、異なる温度で複数回実行する(低温度0.2で5回、高温度1.0で5回、合計 5000 件の分類)。
- ChatGPT-4 の結果を MTurk クラウドワークス(Master Qualified US workers、1ツイートにつき10人の注釈者、コントロール質問あり)および2名の専門家分類者と比較する。
- 基準データに対する正確性、インターコーダー信頼性の Krippendorff’s Alpha、及び注釈者全体のバイアス(Democrat 対 Republican)を算出する。
実験結果
リサーチクエスチョン
- RQ1Zero-shot 学習を用いてツイート内容から政治的所属を正しく推定できるか?
- RQ2このタスクにおける ChatGPT-4 の正確性は、専門家コーダーおよび MTurk クラウドワーカーとどう比較されるか?
- RQ3人間と比較したときの ChatGPT-4 の信頼性(インターコーダー合意)はどの程度か?
- RQ4Democrat か Republican を予測するバイアスはあるか、またグループ間での比較はどうか?
主な発見
- ChatGPT-4 は専門家分類者および MTurk 作業者の両方より高い正確性を達成する。
- ChatGPT-4 は人間のコーダーより高いインターコーダー信頼性(Krippendorff’s Alpha)を示し、特に低温度で顕著。
- 回答者全グループ(ChatGPT-4 を含む専門家も)Democrat を予測するバイアスを示し、MTurk ワーカーは有意に強いバイアスを示す。
- ChatGPT-4 の性能は、文脈知識と著者の意図推論を要するツイートでも示される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。