[논문 리뷰] LLM-Assisted Content Analysis: Using Large Language Models to Support Deductive Coding
이 논문은 LLM-Assisted Content Analysis (LACA)를 제안하여 코딩 워크플로우에 LLM(GPT-3.5)을 통합함으로써 연역적 코딩의 시간 소요를 줄이고 사례 연구 및 네 가지 공개 데이터 세트로 접근법을 검증하며 인간-모델 신뢰성을 벤치마킹합니다.
Deductive coding is a widely used qualitative research method for determining the prevalence of themes across documents. While useful, deductive coding is often burdensome and time consuming since it requires researchers to read, interpret, and reliably categorize a large body of unstructured text documents. Large language models (LLMs), like ChatGPT, are a class of quickly evolving AI tools that can perform a range of natural language processing and reasoning tasks. In this study, we explore the use of LLMs to reduce the time it takes for deductive coding while retaining the flexibility of a traditional content analysis. We outline the proposed approach, called LLM-assisted content analysis (LACA), along with an in-depth case study using GPT-3.5 for LACA on a publicly available deductive coding data set. Additionally, we conduct an empirical benchmark using LACA on 4 publicly available data sets to assess the broader question of how well GPT-3.5 performs across a range of deductive coding tasks. Overall, we find that GPT-3.5 can often perform deductive coding at levels of agreement comparable to human coders. Additionally, we demonstrate that LACA can help refine prompts for deductive coding, identify codes for which an LLM is randomly guessing, and help assess when to use LLMs vs. human coders for deductive coding. We conclude with several implications for future practice of deductive coding and related research methods.
연구 동기 및 목표
- 정성 연구에서 연역적 콘텐츠 분석과 그 코딩 부담에 대한 동기를 제시한다.
- LLM-지원 콘텐츠 분석(LACA)을 코딩 작업에 LLM을 통합한 워크플로로 소개한다.
- 사례 연구와 네 가지 공개 데이터 세트를 통해 LACA의 타당성과 신뢰성을 입증한다.
- 다양한 코딩 작업에서 GPT-3.5의 성능을 인간 코더와 비교 벤치마킹한다.
제안 방법
- Neuendorf의 콘텐츠 분석 프레임워크에 맞춘 LACA 단계 정의.
- LLM과 함께 코드북을 공동 개발하고 임의성 및 정당화 프롬프트를 통해 타당성을 테스트한다.
- 보정 샘플 및 IRR 지표(Gwet의 AC1)를 사용하여 인간–모델 신뢰성을 평가한다.
- 인간 코딩과 비열등성(non-inferiority)이 확립되었을 때 최종 코드를 생성하도록 LLM을 사용한다.
- 사람과 LLM 간의 실시간 소요 시간(wall-clock coding time)을 비교한다.
- 트럼프 트윗에 대한 사례 연구와 네 가지 데이터 세트에 대한 요약 벤치마크를 수행한다.

실험 결과
연구 질문
- RQ1GPT-3.5가 다양한 데이터 세트에서 인간 코더와 유사한 수준의 연역 코딩을 수행할 수 있는가?
- RQ2연역 코딩에서 코드북 개발과 타당성 테스트에 LLM이 어떻게 도움을 줄 수 있는가?
- RQ3최종 데이터에 대해 인간 코딩 대 LLM 코딩이 바람직한 조건은 무엇인가?
- RQ4LLM-지원 코딩에 대해 어떤 신뢰성 벤치마크(IRR)와 임의성 테스트가 시사하는가?
- RQ5전통적 코딩에 비해 LACA가 얼마나 많은 시간 절약을 제공하는가?
주요 결과
- GPT-3.5는 연역 코딩 과제에서 종종 코더와 인간 수준의 일치를 달성한다.
- LACA는 최종 코딩 전에 코드북 공동 개발, 타당성 테스트 및 신뢰도 평가를 가능하게 한다.
- 임의성 테스트는 LLM이 이해하기 어려운 코드들을 식별하여 프롬프트/코드북 정교화에 도움을 준다.
- 보정은 일반적으로 높은 인간–모델 일치를 보이나, 임의성 테스트가 실패하면 일부 코드에서 낮은 정합성을 보인다.
- LACA는 검증 후 최종 코딩을 LLM에 위임함으로써 수작업 코딩 부담을 상당히 줄인다.
- 사유를 포함한 프롬프트는 인간 검토자에게 도움을 주고 코딩 불일치를 진단하는 데 도움을 준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.