[논문 리뷰] Sentiment Analysis in the Era of Large Language Models: A Reality Check
논문은 13개의 감정 분석 태스크를 26개의 데이터셋에서 평가하고 0샷 및 소수 예시(few-shot) LLM 성능을 소형 도메인 튜닝 모델과 비교하며 현실적인 SA 평가를 위한 새로운 벤치마크인 SentiEval을 제안한다.
Sentiment analysis (SA) has been a long-standing research area in natural language processing. It can offer rich insights into human sentiments and opinions and has thus seen considerable interest from both academia and industry. With the advent of large language models (LLMs) such as ChatGPT, there is a great potential for their employment on SA problems. However, the extent to which existing LLMs can be leveraged for different sentiment analysis tasks remains unclear. This paper aims to provide a comprehensive investigation into the capabilities of LLMs in performing various sentiment analysis tasks, from conventional sentiment classification to aspect-based sentiment analysis and multifaceted analysis of subjective texts. We evaluate performance across 13 tasks on 26 datasets and compare the results against small language models (SLMs) trained on domain-specific datasets. Our study reveals that while LLMs demonstrate satisfactory performance in simpler tasks, they lag behind in more complex tasks requiring deeper understanding or structured sentiment information. However, LLMs significantly outperform SLMs in few-shot learning settings, suggesting their potential when annotation resources are limited. We also highlight the limitations of current evaluation practices in assessing LLMs' SA abilities and propose a novel benchmark, extsc{SentiEval}, for a more comprehensive and realistic evaluation. Data and code during our investigations are available at \url{https://github.com/DAMO-NLP-SG/LLM-Sentiment}.
연구 동기 및 목표
- 단순 SC에서 ABSA 및 MAST에 이르기까지 광범위한 감정 분석 태스크에서 LLM이 얼마나 잘 수행하는지 평가한다.
- 도메인 내 데이터에서 소형 도메인-튜닝된 언어 모델과의 제로샷 및 파샷 LLM 성능을 비교한다.
- LLM 시대의 현재 SA 평가 관행을 비판적으로 평가하고 더 포괄적인 벤치마크(SentiEval)를 제안한다.
- LLM 기반 SA의 재현성과 연구를 촉진하기 위한 데이터와 코드를 제공한다.
제안 방법
- 각 데이터셋당 500샘플로 상한이 설정된 테스트 세트를 활용하여 26개 데이터셋에 걸친 13개 SA 태스크를 체계적으로 평가한다.
- 도메인 내 데이터로 학습된 소형 언어 모델(T5 large)을 비교 대상으로 하여 오픈소스 LLM들(Flan-T5 XXL, Flan-UL2)과 OpenAI GPT-3.5 계열(ChatGPT, text-davinci-003)을 비교한다.
- 모델 간 일관성을 보장하기 위해 신중하게 설계된 프롬프트를 사용한 제로샷 및 파샷 프롬프트를 활용한다; 프롬프트 민감도를 평가하기 위해 GPT-4 생성 프롬프트를 포함한 다양한 프롬프트를 탐색한다.
- 표준 자동 지표(예: 정확도, micro-F1, macro-F1) 및 세부 ABSA 태스크에 대한 표적 인간 평가를 포함한 분석이다.
- ABSA 변형(UABSA, ASTE, ASQP) 및 MAST 태스크(암시적 감정, 혐오 발언, 반어, 모욕적 언어, 입장, 비교, 감정)의 평가이다.
- 프롬프트 설계 민감도와 ABSA와 SC 태스크에 대한 영향력의 조사; ChatGPT에서 관찰된 RLHF 관련 편향(예: 혐오 발언, 반어, 모욕적 언어)에 대한 논의.
실험 결과
연구 질문
- RQ1대형 언어 모델은 광범위한 감정 분석 태스크에서 얼마나 잘 수행되는가?
- RQ2제로샷 및 파샷 설정에서 대형 모델이 도메인-튜닝된 소형 모델을 SA 태스크 전반에서 능가하는가?
- RQ3현행 SA 평가 관행이 LLM 기반 감정 분석 평가에 충분한가, 아니면 더 포괄적인 벤치마크가 필요한가?
- RQ4LLM을 SA에 적용하는 데 있어 한계와 함정(예: 프롬프트 민감도, 태스크 구조)은 무엇인가?
주요 결과
- LLMs는 이진 감정 분류와 같은 단순한 SA 태스크에서 제로샷 성능이 만족스러운 반면, 복잡하거나 구조화된 태스크(예: ABSA)에서는 미세 조정된 소형 모델에 뒤처진다.
- ChatGPT는 제로샷 설정에서 SC 태스크에서 미세 조정된 T5 모델의 약 97%, MAST 태스크에서 약 83%를 달성하여 강한 고유 감정 분석 능력을 보여주지만 구조화된 출력에는 여전히 차이가 있다.
- 파샷 설정에서 LLM은 제한된 주석에서도 일관되게 SLM을 능가하지만, 문맥 길이와 프롬프트 설계가 효과에 제약을 줄 수 있다.
- RLHF에 정렬된 모델들(예: ChatGPT)은 일부 더 큰 비-RLHF 모델에 비해 혐오 발언, 반어, 모욕적 언어 태스크에서 성능이 떨어질 수 있어 정렬 편향을 시사한다.
- 프롬프트 설계는 ABSA 유형 태스크에 현저히 영향을 주는 반면 SC 태스크는 상대적으로 민감도가 덜하다; LLM을 이용한 ABSA에서 인간 평가가 자동 지표보다 종종 더 나은 성능을 보인다.
- 저자들은 SA 테스트의 프롬프트 설계 편향을 줄이고 더 포괄적이고 다양한 태스크 평가를 가능하게 하는 벤치마크로 SentiEval을 도입한다.
- 재현성을 위한 데이터와 코드는 저자 저장소(https://github.com/DAMO-NLP-SG/LLM-Sentiment)에서 제공된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.