QUICK REVIEW

[논문 리뷰] Decoding Complexity: Exploring Human-AI Concordance in Qualitative Coding

Elisabeth Kirsten, Annalina Buckmann|arXiv (Cornell University)|2024. 03. 11.

Explainable Artificial Intelligence (XAI)인용 수 5

한 줄 요약

본 논문은 GPT-3.5와 GPT-4가 세 가지 점점 복잡해지는 작업에서 LLM 보조 질적 데이터 코딩을 수행하는 정도를 평가하고, Cohen’s kappa를 사용해 인간 코더와 비교하며, GPT-4가 일반적으로 인간과 더 잘 일치하는 경향을 보이고 작업별 한계가 있음을 발견한다.

ABSTRACT

Qualitative data analysis provides insight into the underlying perceptions and experiences within unstructured data. However, the time-consuming nature of the coding process, especially for larger datasets, calls for innovative approaches, such as the integration of Large Language Models (LLMs). This short paper presents initial findings from a study investigating the integration of LLMs for coding tasks of varying complexity in a real-world dataset. Our results highlight the challenges inherent in coding with extensive codebooks and contexts, both for human coders and LLMs, and suggest that the integration of LLMs into the coding process requires a task-by-task evaluation. We examine factors influencing the complexity of coding tasks and initiate a discussion on the usefulness and limitations of incorporating LLMs in qualitative research.

연구 동기 및 목표

실제 독일어 인터뷰 데이터를 사용한 LLM 보조 질적 코딩(QDA)의 실행 가능성과 정확성 조사.
의미적 태스크와 잠재적 코딩 태스크 전반에서 LLM 성능을 인간 코더와 비교.
코딩 태스크의 복잡도와 모델 일치에 영향을 미치는 요인을 식별하고, 실용적 통합 고려사항을 논의.

제안 방법

공유된 인간이 생성한 코드북을 사용하여 독일어 인터뷰 세그먼트( n=47 )를 인간 코더와 LLM 모두에게 제공한다.
통제된 온도(0)에서 세그먼트당 코드 0개, 1개, 또는 그 이상을 배정하도록 LLM(GPT-3.5 및 GPT-4)을 프롬프트한다.
제로샷, 원샷, 파샷 프롬프트를 실험하여 코딩 출력 및 환각에 미치는 영향을 평가한다.
다양한 복잡성의 세 가지 작업에서 인간 간, 인간과 모델 간의 Cohen’s kappa를 사용한 평가자 간 신뢰도(IRR) 계산.
세 가지 코딩 작업 분석(Task A: 의미 태깅; Task B: 계층적 데이터의 앱/서비스/사용 사례; Task C: 잠재 해석이 필요한 신뢰할 수 있는 소스).
작업 간 일치를 평가하기 위해 세 가지 프롬프트 변형과 두 모델을 사용.

실험 결과

연구 질문

RQ1LLM(GPT-3.5 및 GPT-4)은 점차 복잡해지는 QDA 태스크에서 인간 코더와 얼마나 잘 정렬되는가?
RQ2프롬프트 설계(제로샷, 원샷, 파샷)가 합의나 코드북 환각에 영향을 주는가?
RQ3코딩 태스크의 난이도에 영향을 주는 요인(세그먼트 길이, 코드북 크기, 의미 대 잠재 주제)은 인간과 LLM에 어떤 영향을 미치는가?
RQ4GPT-4가 모든 태스크에서 GPT-3.5보다 일관되게 인간 코딩에 더 가까운가?

주요 결과

GPT-4는 모든 작업에서 인간과의 일치도가 GPT-3.5보다 일관되게 높은 편이다.
인간 간 일치도는 Task A에서 거의 완벽하고, Task C에서는 상당하며, Task B에서는 낮다.
GPT-4는 Task A에서 모든 설정에서 인간과 거의 완벽한 일치를 달성하는 반면; GPT-3.5는 다수의 프롬프트 예시가 있을 때에야 비슷한 수준에 도달한다.
작업 A에서 C로 갈수록 인간과 모델 간의 일치가 감소하고, 작업 복잡도가 증가함에 따라 모델-인간 점수와 인간 간 점수 간의 차이가 벌어진다.
파샷 프롬핑은 GPT-3.5의 일부 한계(형식 오류 및 환각 등)를 완화하지만 보편적으로 성능을 향상시키지는 못하는 반면, GPT-4는 파샷 여부에 관계없이 견고한 성능을 보인다.
GPT-3.5는 GPT-4보다 더 많은 잘못된 코드를 생성했다(프롬프트 없이 Task B에서 최대 47개의 새로운 코드; 예시로 감소).
GPT-4는 더 나은 정렬을 제공하지만 여전히 작업별 한계가 있어, QDA에 LLM을 통합할 때 작업별 평가가 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.