QUICK REVIEW

[논문 리뷰] Is ChatGPT a Good Sentiment Analyzer? A Preliminary Study

Zengzhi Wang, Qiming Xie|arXiv (Cornell University)|2023. 04. 10.

Topic Modeling인용 수 78

한 줄 요약

이 논문은 ChatGPT(GPT-3.5)를 다중 작업(SC, ABSC, E2E-ABSA, ECE, ECPE)에서 보편적 감정 분석기로 예비적으로 평가하고, 제로샷과 파샷 프롬프트를 미세조정된 BERT 및 SOTA 모델과 비교하며, 인간 평가 및 사례 연구를 포함한다.

ABSTRACT

Recently, ChatGPT has drawn great attention from both the research community and the public. We are particularly interested in whether it can serve as a universal sentiment analyzer. To this end, in this work, we provide a preliminary evaluation of ChatGPT on the understanding of \emph{opinions}, \emph{sentiments}, and \emph{emotions} contained in the text. Specifically, we evaluate it in three settings, including \emph{standard} evaluation, \emph{polarity shift} evaluation and \emph{open-domain} evaluation. We conduct an evaluation on 7 representative sentiment analysis tasks covering 17 benchmark datasets and compare ChatGPT with fine-tuned BERT and corresponding state-of-the-art (SOTA) models on them. We also attempt several popular prompting techniques to elicit the ability further. Moreover, we conduct human evaluation and present some qualitative case studies to gain a deep comprehension of its sentiment analysis capabilities.

연구 동기 및 목표

다양한 감정 분석 작업에서 텍스트의 의견, 감정, 그리고 감정을 이해하는 ChatGPT의 능력을 평가한다.
표준, 극성 변화, 오픈 도메인 및 감정 추론 평가에서 미세조정된 BERT 및 SOTA 모델과 ChatGPT를 비교한다.
Few-shot 프롬프트 및 인간 평가가 ChatGPT의 감정 분석 성능에 미치는 영향을 탐구한다.
극성 변화 현상 및 오픈 도메인 일반화에 대한 ChatGPT의 능력을 검토한다.
감정 원인 추출 및 감정-원인 쌍 추출을 감정 추론 평가를 통해 조사한다.

제안 방법

표준 평가, 극성 변화 평가, 오픈 도메인 평가, 그리고 감정 추론 평가의 네 가지 설정에서 ChatGPT를 평가한다.
SC, ABSC, E2E-ABSA, ECE, ECPE 작업에 걸친 18개의 벤치마크 데이터셋을 사용한다.
ChatGPT를 미세조정된 BERT 기반선 및 최첨단 모델과 비교한다; 별도 명시가 없는 한 제로샷 결과를 보고한다.
작업별 지침과 프롬프트(Table 1 prompts)를 사용하여 ChatGPT에 프롬프트를 제공하고 출력 변동성으로 인해 결과를 수동으로 기록한다.
데이터셋 주석과 실용적 유용성 평가를 위해 E2E-ABSA에 대해 인간 평가를 수행한다.
데모로부터의 이득을 평가하기 위해 소수-shot 프롬프트 실험(k = 1,3,9,27)을 수행한다.

실험 결과

연구 질문

RQ1표준, 극성 변화, 오픈 도메인 및 감정 추론 평가에서 ChatGPT가 보편적 감정 분석기로 작동할 수 있는가?
RQ2SC, ABSC 및 ABSA 작업에서 ChatGPT의 제로샷 성능은 미세조정된 BERT 및 SOTA 모델과 어떻게 비교되는가?
RQ3소수-shot 프롬프트가 작업과 도메인 전반에 걸쳐 ChatGPT의 감정 분석 성능을 크게 향상시키는가?
RQ4BERT 베이스라인에 비해 극성 변화 현상(부정 및 추측)에 대해 ChatGPT의 견고성은 어느 정도인가?
RQ5오픈 도메인 감정 분석 및 감정-원인 추출 작업에서 ChatGPT의 능력은 어떤가?

주요 결과

ChatGPT는 감정 분류에서 제로샷에서도 인상적인 성능을 보여, 미세조정된 BERT와 경쟁하거나 때때로 SOTA 모델에 근접하다.
ChatGPT는 정확일치(E2E-ABSA) 평가에서 단점이 있지만, 인간 평가에서 합리적이고 인간과 일치하는 예측을 제시할 수 있다.
소수-shot 프롬프트는 작업과 도메인 전반에서 성능을 크게 향상시키며, 때때로 미세조정된 BERT를 능가하지만 보통은 여전히 SOTA 모델보다 뒤처진다.
ChatGPT는 ABSC 작업에서 특히 부정 및 추측에 대한 극성 변화에 대해 미세조정된 BERT보다 더 견고한 경향을 보인다.
오픈 도메인 평가에서 ChatGPT는 종종 다중 소스 미세조정 BERT와 동등하거나 이를 능가하며 여러 데이터 세트에서 완전히 감독된 BERT 성능에 근접할 수 있다; 그러나 도메인별로 성능 차이가 있다(예: 소셜 미디어 도메인은 여전히 도전적).
ChatGPT는 감정 추론 능력이 강하게 나타나, ECE 및 ECPE에서 기준 방법에 비해 양호하지만 ECPE는 더 어려운 편이다; 인간 평가는 많은 합리적인 예측이 정확한 일치와는 다르다고 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.