QUICK REVIEW

[논문 리뷰] Testing the Reliability of ChatGPT for Text Annotation and Classification: A Cautionary Remark

Michael Reiss|arXiv (Cornell University)|2023. 04. 17.

Artificial Intelligence in Healthcare and Education인용 수 31

한 줄 요약

이 논문은 텍스트 주석 및 분류를 위한 ChatGPT의 제로샷 신뢰성을 분석하여 출력이 프롬프트, 온도, 반복에 걸쳐 일관되지 않을 수 있음을 보여주고, 자가 학습 없이 사용하기보다 주의와 검증을 권장한다.

ABSTRACT

Recent studies have demonstrated promising potential of ChatGPT for various text annotation and classification tasks. However, ChatGPT is non-deterministic which means that, as with human coders, identical input can lead to different outputs. Given this, it seems appropriate to test the reliability of ChatGPT. Therefore, this study investigates the consistency of ChatGPT's zero-shot capabilities for text annotation and classification, focusing on different model parameters, prompt variations, and repetitions of identical inputs. Based on the real-world classification task of differentiating website texts into news and not news, results show that consistency in ChatGPT's classification output can fall short of scientific thresholds for reliability. For example, even minor wording alterations in prompts or repeating the identical input can lead to varying outputs. Although pooling outputs from multiple repetitions can improve reliability, this study advises caution when using ChatGPT for zero-shot text annotation and underscores the need for thorough validation, such as comparison against human-annotated data. The unsupervised application of ChatGPT for text annotation and classification is not recommended.

연구 동기 및 목표

실제 세계의 News vs. Not News 과제에서 텍스트 주석 및 분류에 대한 ChatGPT의 제로샷 신뢰성을 평가한다.
모델 매개변수(temperature), 프롬프트 변형, 그리고 반복 입력이 일관성에 미치는 영향을 조사한다.
반복으로부터의 출력을 풀링해 신뢰성이 과학적으로 허용 가능한 임계치까지 향상되는지 평가한다.
자동 주석 소프트웨어에서 ChatGPT를 사용하는 데 대한 시사점과 철저한 검증의 필요성을 강조한다.

제안 방법

OpenAI API를 통해 gpt-3.5-turbo를 사용하여 234개의 독일어권 웹사이트 텍스트를 News 또는 Not News로 분류한다.
사람이 코딩한 코드북과 더 짧은 대안을 바탕으로 10가지 다른 지시문(프롬프트 변형)을 만든다.
두 가지 온도 설정(0.25와 1)을 46,800개의 입력에 걸쳐 테스트한다(2340 프롬프트 x 10 반복 x 2 온도).
Krippendorff의 Alpha로 일관성을 측정하며, (i) 풀링 없음, (ii) 세 번 반복에서의 다수결, (iii) 열 번 반복에서의 다수결.
다른 프롬프트 간 및 동일 입력의 반복 간 출력을 비교하여 프롬프트 내/프롬프트 간 신뢰성을 평가한다.

실험 결과

연구 질문

RQ1다른 프롬프트 간 동일 입력에 대한 ChatGPT 분류의 일관성은 어느 정도인가?
RQ2온도 설정이 ChatGPT의 제로샷 주석 신뢰도에 어떤 영향을 미치는가?
RQ3여러 반복에서의 출력 풀링이 신뢰도를 향상시키고 어느 정도까지 가능한가?
RQ4동일 구성을 사용해 동일 입력을 반복했을 때 일관성이 의미 있게 나타나는가?
RQ5비지도 텍스트 주석 워크플로우에서 ChatGPT를 사용하는 것의 시사점은 무엇인가?

주요 결과

두 온도 설정 간 일관성은 풀링하지 않을 때 신뢰 임계치 below일 수 있다(Alpha = 0.75).
열 번 반복을 풀링하면 동일 프롬프트에서 Temp를 가리지 않고 일관성이 Alpha = 0.91로 증가한다.
지시문 문구의 차이에 따라 일관성이 낮게 나타나며(Alpha가 0.6을 넘지 않음), 풀링 여부와 무관하다.
동일 입력 반복 내에서 낮은 온도가 더 높은 일관성을 보이며(Alpha > 0.9); 더 높은 온도는 가장 강한 규칙에서 Alpha가 약 0.85이다.
전반적으로 제로샷 분류는 신뢰할 수 없을 수 있으며 인간 주석 데이터에 대한 검증이 필요하다; 비감독 학습 사용은 권장되지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.