[論文レビュー] Decoding Complexity: Exploring Human-AI Concordance in Qualitative Coding
本論文はGPT-3.5とGPT-4が三つの段階的に複雑さを増すタスクでLLM支援による定性的データコーディングを実施し、コーエンのカッパ係数を用いて人間のコーダーと比較し、GPT-4は一般に人間とより一致するが、タスク特有の限界がある、という評価を行う。
Qualitative data analysis provides insight into the underlying perceptions and experiences within unstructured data. However, the time-consuming nature of the coding process, especially for larger datasets, calls for innovative approaches, such as the integration of Large Language Models (LLMs). This short paper presents initial findings from a study investigating the integration of LLMs for coding tasks of varying complexity in a real-world dataset. Our results highlight the challenges inherent in coding with extensive codebooks and contexts, both for human coders and LLMs, and suggest that the integration of LLMs into the coding process requires a task-by-task evaluation. We examine factors influencing the complexity of coding tasks and initiate a discussion on the usefulness and limitations of incorporating LLMs in qualitative research.
研究の動機と目的
- 実世界のドイツ語インタビューデータを用いたLLM支援定性的コーディング(QDA)の実現可能性と正確性を調査する。
- セマンティック対潜在的コーディングタスクを通じて、LLMのパフォーマンスを人間のコーダーと比較する。
- コーディングタスクの難易度とモデルの一致に影響を与える要因を特定し、実務的な統合検討を議論する。
提案手法
- 人間のコーダーとLLMの双方に共有された人間生成コードブックを用いて、ドイツ語インタビューのセグメント(n=47)を提供する。
- LLM(GPT-3.5とGPT-4)に、セグメントごとにゼロ、1つ、または複数のコードを割り当てるよう、温度設定0でプロンプトをかける。
- コーディング出力と幻覚の影響を評価するため、ゼロショット、ワンショット、数ショット promptingを用いて試す。
- 三つのタスクの複雑さが異なる場面で、人間と人間・モデル間のコーエン’s kappaによるIRRを計算する。
- 三つのコーディングタスクを分析する(タスクA: インターネット接続デバイスのセマンティックタグ付け; タスクB: 階層データを含むアプリ/サービス/ユースケース; タスクC: 潜在的解釈を要する信頼できる情報源)。
- タスクを跨いで合意を評価するため、三つのプロンプト変法と二つのモデルを使用。
実験結果
リサーチクエスチョン
- RQ1増大する複雑さを持つQDAタスクにおいて、LLMs(GPT-3.5とGPT-4)は人間のコーダーとどれくらい一致するか?
- RQ2プロンプト設計(ゼロショット、ワンショット、数ショット)は合意とコードブックの幻覚に影響を与えるか?
- RQ3セグメント長、コードブックのサイズ、意味論的対潜在的テーマなど、どの要因が人間とLLMsのコーディングタスクの難易度に影響するか?
- RQ4GPT-4は全タスクでGPT-3.5より一貫して人間のコーディングに近いか?
主な発見
- GPT-4は全タスクで人間とより高い一致を一貫して達成する、というのはGPT-3.5より。
- タスクAは人間同士の一致がほぼ完璧、タスクCはかなり高い、タスクBは低い。
- GPT-4はタスクAでほぼ完璧な一致を全設定で達成; GPT-3.5は複数のインプロンプト例がある場合のみ同様の水準に達する。
- タスクAからCへ向けて人間とモデル双方の合意は低下し、タスクの難易度が上がるにつれてモデル-humanと inter-humanのスコア差が拡大。
- 数ショット promptingはGPT-3.5の制限(例えばフォーマットエラーと幻覚)を緩和するが、普遍的に性能を改善するわけではない。一方GPT-4は数ショット有無にかかわらず堅牢な性能を示す。
- GPT-3.5はGPT-4より間違ったコードを多く生み出した(プロンプトなしでタスクBで新規コード47件まで; 例を用いると減少)。
- GPT-4はより良い整合性を示すが、依然としてタスク特有の限界があり、LLMをQDAに統合する際にはタスクごとの評価が必要である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。