[論文レビュー] LLM-Assisted Content Analysis: Using Large Language Models to Support Deductive Coding
この論文は、LLM を用いた支援を組み込むことで推論コード化の時間を削減するための LLM-Assisted Content Analysis(LACA)を提案し、ケーススタディと4つの公開データセットでアプローチを検証し、人間とモデルの信頼性をベンチマークする。
Deductive coding is a widely used qualitative research method for determining the prevalence of themes across documents. While useful, deductive coding is often burdensome and time consuming since it requires researchers to read, interpret, and reliably categorize a large body of unstructured text documents. Large language models (LLMs), like ChatGPT, are a class of quickly evolving AI tools that can perform a range of natural language processing and reasoning tasks. In this study, we explore the use of LLMs to reduce the time it takes for deductive coding while retaining the flexibility of a traditional content analysis. We outline the proposed approach, called LLM-assisted content analysis (LACA), along with an in-depth case study using GPT-3.5 for LACA on a publicly available deductive coding data set. Additionally, we conduct an empirical benchmark using LACA on 4 publicly available data sets to assess the broader question of how well GPT-3.5 performs across a range of deductive coding tasks. Overall, we find that GPT-3.5 can often perform deductive coding at levels of agreement comparable to human coders. Additionally, we demonstrate that LACA can help refine prompts for deductive coding, identify codes for which an LLM is randomly guessing, and help assess when to use LLMs vs. human coders for deductive coding. We conclude with several implications for future practice of deductive coding and related research methods.
研究の動機と目的
- 定性的研究における推論的内容分析とそのコーディングのオーバーヘッドを動機づける。
- LLM-Assisted Content Analysis (LACA) を、LLM をコーディング作業へ統合したワークフローとして導入する。
- ケーススタディと4つの公開データセットを通じて LACA の妥当性と信頼性を示す。
- 多様なコーディングタスクにおける GPT-3.5 の性能を人間のコーダーと比較するベンチマークを行う。
提案手法
- Neuendorf の内容分析フレームワークに沿った LACA のステップを定義する。
- LLM と共にコードブックを共同作成し、ランダム性と正当化プロンプトを用いて妥当性をテストする。
- カリブレーションサンプルと IRR 指標(Gwet の AC1)を用いて人間とモデルの信頼性を評価する。
- 人間のコーディングに非劣性が確立された場合、最終コードの生成に LLM を使用する。
- 人間と LLM の実測時間を比較する。
- トランプのツイートを題材としたケーススタディと、4つのデータセットにまたがる要約ベンチマークを実施する。

実験結果
リサーチクエスチョン
- RQ1GPT-3.5 は、多様なデータセットにわたって人間のコーダーと同等のレベルで推論的コーディングを実行できるか。
- RQ2推論的コーディングにおけるコードブックの開発と妥当性テストにおいて、LLMs はどのように支援できるか。
- RQ3最終データのコーディングにおいて、人間とLLMのどちらが望ましいのは、どの条件下か。
- RQ4LLM支援コーディングについて、どのような信頼性ベンチマーク(IRR)とランダム性テストが示されるか。
- RQ5従来のコーディングに対して LACA はどれくらいの時間節約を提供するか?
主な発見
- GPT-3.5 は、推論的コーディングタスクでしばしばコーダーと人間レベルの合意を達成する。
- LACA は最終コーディング前のコードブック共同作成、妥当性テスト、信頼性評価を可能にする。
- ランダム性のテストは、LLM が理解に苦しむコードを特定し、プロンプト/コードブックの改善を導く。
- キャリブレーションは、一般に高い人間–モデルの合意を示すが、ランダム性テストが不成立のときは一部のコードで整合性が低下する。
- LACA は検証後に最終コーディングを LLM に委任することで、手動のコーディング負担を大幅に削減する。
- 意思決定の理由を含むプロンプトは、人間のレビュアーを支援し、コーディングの意見の相違を診断するのに役立つ。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。