QUICK REVIEW

[论文解读] Using Large Language Models for Qualitative Analysis can Introduce Serious Bias

Julian Ashwin, Aditya Chhabra|arXiv (Cornell University)|Sep 29, 2023

Topic Modeling被引用 9

一句话总结

论文表明大型语言模型（LLMs）会影响对开放式访谈的定性注释的偏见；在专家注释上训练的小型定制模型（iQual）优于LLMs并减少偏见，数据增强帮助有限。

ABSTRACT

Large Language Models (LLMs) are quickly becoming ubiquitous, but the implications for social science research are not yet well understood. This paper asks whether LLMs can help us analyse large-N qualitative data from open-ended interviews, with an application to transcripts of interviews with Rohingya refugees in Cox's Bazaar, Bangladesh. We find that a great deal of caution is needed in using LLMs to annotate text as there is a risk of introducing biases that can lead to misleading inferences. We here mean bias in the technical sense, that the errors that LLMs make in annotating interview transcripts are not random with respect to the characteristics of the interview subjects. Training simpler supervised models on high-quality human annotations with flexible coding leads to less measurement error and bias than LLM annotations. Therefore, given that some high quality annotations are necessary in order to asses whether an LLM introduces bias, we argue that it is probably preferable to train a bespoke model on these annotations than it is to use an LLM for annotation.

研究动机与目标

评估LLMs是否能够在大样本定性访谈数据（关于在孟加拉国库克斯港 Rohingya 难民及东道居民）进行准确注释。
评估LLM注释相对于专家注释是否存在系统性偏见。
比较基于LLM的注释与在高质量人工注释基础上训练的iQual监督建模方法。
探讨通过LLM数据增强是否能为iQual带来可靠的改进。
就将定性分析的解释性与可扩展的NLP工具之间的平衡提出指引。

提出的方法

使用三种LLM（ChatGPT、Llama 2（13B）及Llama 2 chat 变体）在QA层面对2,407份开放式访谈逐条注释，采用详细提示、少量示例学习以及连锁思维提示。
开发iQual：为每个编码训练一个单独的监督模型，使用高质量专家注释进行训练；通过跨验证和200份访谈的留出测试集进行样本外预测评估。
使用样本外的F1分数和准确率比较注释方法的预测性能。
通过分析过度预测模式以及基于回归的检验评估预测误差是否与受访者特征（如难民身份、性别、教育程度）相关来研究偏见。
通过LLM生成文本进行数据增强，以训练iQual模型并评估其对性能和偏见的影响。

实验结果

研究问题

RQ1LLMs是否能相对于专家标注数据，对开放式定性访谈数据提供准确的注释？
RQ2LLM注释是否对受访者特征存在偏见，以及这种偏见对下游推断的影响？
RQ3iQual 方法（基于专家注释的训练）是否在样本外预测中优于LLMs，并在维持无偏结果方面是否更具优势？
RQ4LLM数据增强是否能显著提升iQual的性能，同时不引入新偏见？
RQ5基于比较结果，对将LLMs应用于定性分析提出的实际建议？

主要发现

在样本外F1分数方面，LLMs通常不及iQual，且三种LLM中ChatGPT通常最好但仍不如iQual。
三种LLM均表现出对注释的系统性过度预测，导致编码之间的流行程度估计偏离（如世俗与宗教愿望的比较）。
LLM的预测误差并非随机；回归检验显示与受访者特征相关的偏见，若仅依赖，可能导致误导性结论。
iQual在只有一个编码上表现出偏见，但在接近专家水平的估计且标准误更小。
在此情境下，使用LLM进行数据增强对iQual的改进有限或无显著效果。
总体而言，基于专家注释训练的定制模型在准确性和减少偏见方面更优；LLMs更适合作为辅助工具而非替代品。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。