QUICK REVIEW

[논문 리뷰] Will Affective Computing Emerge from Foundation Models and General AI? A First Evaluation on ChatGPT

Mostafa M. Amin, Erik Cambria|arXiv (Cornell University)|2023. 03. 03.

Mental Health via Writing인용 수 36

한 줄 요약

논문은 ChatGPT의 세 가지 감정계산 텍스트 분류 작업(빅파이너(P) 성격 예측, 감정 분석, 자살 경향 탐지)을 수행하는 능력을 평가하고, 세 가지 전문화된 베이스라인(RoBERTa, Word2Vec, BoW)과의 성능 비교를 통해 ChatGPT가 일반ist로서 유능하나 작업 특화 모델에 의해 일반적으로는 뒤처지는 경향이 있음을, 특히 RoBERTa에 비해 낮은 편차를 보임을 보여준다.

ABSTRACT

ChatGPT has shown the potential of emerging general artificial intelligence capabilities, as it has demonstrated competent performance across many natural language processing tasks. In this work, we evaluate the capabilities of ChatGPT to perform text classification on three affective computing problems, namely, big-five personality prediction, sentiment analysis, and suicide tendency detection. We utilise three baselines, a robust language model (RoBERTa-base), a legacy word model with pretrained embeddings (Word2Vec), and a simple bag-of-words baseline (BoW). Results show that the RoBERTa trained for a specific downstream task generally has a superior performance. On the other hand, ChatGPT provides decent results, and is relatively comparable to the Word2Vec and BoW baselines. ChatGPT further shows robustness against noisy data, where Word2Vec models achieve worse results due to noise. Results indicate that ChatGPT is a good generalist model that is capable of achieving good results across various problems without any specialised training, however, it is not as good as a specialised model for a downstream task.

연구 동기 및 목표

ChatGPT와 같은 기초 모델이 감독 학습 없이 감정계산 분류 작업을 완전히 해결할 수 있는지 평가한다.
감정계산의 다운스트림 NLP 작업에서 ChatGPT를 평가하기 위한 프레임워크를 제공한다.
일반ist와 작업특정 성능을 정량화하기 위해 ChatGPT를 전문 베이스라인과 비교한다.

제안 방법

작업에 해당하는 세 가지 데이터세트(빅파이 성격 예측, 감정 분석, 자살 경향 탐지)를 사용한다.
ChatGPT를 RoBERTa-base, Word2Vec(SVM), BoW(SVM) 세 가지 베이스라인과 비교한다.
각 테스트 인스턴스에 대해 명시적 프롬프트를 구성하고 정규식으로 응답을 해석한다.
정확도와 Unweighted Average Recall(UAR)을 표준화하고 치우친 차이를 permutation 테스트로 유의성 평가한다.
개발 세트에서 SMAC 베이지안 최적화를 통해 베이스라인 하이퍼파라미터를 튜닝한다.
작업별 정확도와 UAR로 결과를 보고한다.

실험 결과

연구 질문

RQ1작업 특화 미세조정 없이 ChatGPT가 다운스트림 감정계산 작업에서 완전한 Emergence를 보여주는가?
RQ2성격, 감정, 자살 탐지에서 강력한 베이스라인 트랜스포머인 RoBERTa 및 더 간단한 베이스라인인 Word2Vec, BoW와 비교해 ChatGPT의 성능은 어떠한가?
RQ3감정계산 작업에서 노이즈가 많은 데이터에 대해 Word2Vec 베이스라인에 비해 ChatGPT가 강건한가?
RQ4연구 환경에서 NLP 작업의 체계적 평가를 위해 ChatGPT를 사용하는 데에 어떤 한계가 있는가?

주요 결과

과제	ChatGPT_정확도	RoBERTa_정확도	Word2Vec_정확도	BoW_정확도	ChatGPT_UAR	RoBERTa_UAR	Word2Vec_UAR	BoW_UAR
O	46.6	66.0***	65.2***	59.7***	50.1	50.9	50.7	55.6
C	57.4	63.7*	62.7	55.6	57.7	60.8	60.0	56.3
E	55.2	66.0***	59.9	55.2	54.0	62.3***	55.5	53.7
A	44.8	67.4***	67.2***	58.5***	48.4	51.9	51.0	55.7*
N	47.2	62.1***	56.8***	56.0***	49.1	61.2***	54.6	55.8*
Sen	85.5	85.0	79.4*	82.5	85.5	85.0	79.4**	82.4
Sui	92.7	97.4***	92.1	92.7	91.2	97.4***	91.2	90.9

ChatGPT는 특정 다운스트림 작업에 대해 미세조정된 RoBERTa보다 일반적으로 성능이 낮다.
세 가지 작업 중 감정 분석에서 최상의 성능을 보이며 간단한 베이스라인과도 경쟁하지만 많은 경우 RoBERTa나 Word2Vec만큼 우수하지는 않다.
RoBERTa가 특히 성격과 자살 탐지 작업에서 가장 높은 정확도를 자주 보인다.
ChatGPT는 노이즈에 대해 강건한 반면 Word2Vec은 트위터에서 파생된 감정 데이터의 노이즈에 더 취약하다.
통계적 검정(순열 검정) 결과, 많은 ChatGPT 차이가 BoW에 비해 유의미하지 않다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.