QUICK REVIEW

[论文解读] Decoding Complexity: Exploring Human-AI Concordance in Qualitative Coding

Elisabeth Kirsten, Annalina Buckmann|arXiv (Cornell University)|Mar 11, 2024

Explainable Artificial Intelligence (XAI)被引用 5

一句话总结

本论文评估GPT-3.5和GPT-4在三个复杂度递增的任务中进行LLM辅助定性数据编码的表现，与使用Cohen’s kappa的人类编码员进行比较，发现GPT-4通常与人类更一致，但存在任务特异性限制。

ABSTRACT

Qualitative data analysis provides insight into the underlying perceptions and experiences within unstructured data. However, the time-consuming nature of the coding process, especially for larger datasets, calls for innovative approaches, such as the integration of Large Language Models (LLMs). This short paper presents initial findings from a study investigating the integration of LLMs for coding tasks of varying complexity in a real-world dataset. Our results highlight the challenges inherent in coding with extensive codebooks and contexts, both for human coders and LLMs, and suggest that the integration of LLMs into the coding process requires a task-by-task evaluation. We examine factors influencing the complexity of coding tasks and initiate a discussion on the usefulness and limitations of incorporating LLMs in qualitative research.

研究动机与目标

使用真实世界的德语访谈数据调查LLM辅助定性编码(QDA)的可行性与准确性。
比较LLM在语义编码与潜在编码任务中的表现与人类编码员的差异。
识别影响编码任务复杂性和模型一致性的因素，并讨论实际集成方面的考虑。

提出的方法

向人类编码员和LLMs提供德语访谈片段（n=47），并使用共享的人类生成的代码表。
在受控温度（0）下提示LLMs（GPT-3.5和GPT-4）为每个片段分配零个、一个或多个代码。
进行零-shot、一个-shot和少量-shot提示实验，以评估对编码输出和幻觉的影响。
使用Cohen's kappa计算人类之间的互评一致性(IRR)，以及人类与模型之间在三个具有不同复杂度的任务中的一致性。
分析三项编码任务（任务A：对联网设备的语义标签；任务B：具有分层数据的应用/服务/使用案例；任务C：需要潜在解释的可信来源）。
使用三种提示变体和两种模型来评估跨任务的一致性。

实验结果

研究问题

RQ1在日益复杂的QDA任务中，LLMs（GPT-3.5和GPT-4）与人类编码员的一致性有多高？
RQ2提示设计（零-shot、付一-shot、少量-shot）是否会影响一致性和代码表的幻觉？
RQ3哪些因素（片段长度、代码本大小、语义与潜在主题）影响人类和LLMs的编码任务难度？
RQ4在所有任务中，GPT-4是否始终比GPT-3.5更接近人类编码？

主要发现

GPT-4在所有任务中都比GPT-3.5更能与人类达成一致。
人际之间的一致性在任务A几乎完美，在任务C显著，但在任务B较低。
GPT-4在任务A的所有设置中均与人类几乎完美一致；GPT-3.5仅在有多次提示示例时达到类似水平。
随着任务从A到C的复杂性增加，无论是人类还是模型，一致性都在下降，模型-人类分数与人际分数之间的差距在任务越复杂时越大。
少量-shot提示在一定程度上缓解了GPT-3.5的某些局限（如格式错误和幻觉），但并不普遍提高性能；而GPT-4在有无少量提示时都表现稳健。
GPT-3.5产生的错误代码比GPT-4更多（在任务B无提示时最多新增47个代码；有示例后减少）。
GPT-4提供了更好的对齐，但仍然存在任务特定的局限，表明在将LLM整合到QDA中时需要逐任务评估。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。