[논문 리뷰] How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language Understanding Tasks
본 논문은 GPT-3.5의 강건성을 21개 데이터셋(≈116K 테스트 샘플)과 66개 TextFlint 변환에 걸쳐 9개의 NLU 과제에서 분석하여, 상당한 강건성 저하와 프롬프트/숫자 민감성을 보고한다.
The GPT-3.5 models have demonstrated impressive performance in various Natural Language Processing (NLP) tasks, showcasing their strong understanding and reasoning capabilities. However, their robustness and abilities to handle various complexities of the open world have yet to be explored, which is especially crucial in assessing the stability of models and is a key aspect of trustworthy AI. In this study, we perform a comprehensive experimental analysis of GPT-3.5, exploring its robustness using 21 datasets (about 116K test samples) with 66 text transformations from TextFlint that cover 9 popular Natural Language Understanding (NLU) tasks. Our findings indicate that while GPT-3.5 outperforms existing fine-tuned models on some tasks, it still encounters significant robustness degradation, such as its average performance dropping by up to 35.74\% and 43.59\% in natural language inference and sentiment analysis tasks, respectively. We also show that GPT-3.5 faces some specific robustness challenges, including robustness instability, prompt sensitivity, and number sensitivity. These insights are valuable for understanding its limitations and guiding future research in addressing these challenges to enhance GPT-3.5's overall performance and generalization abilities.
연구 동기 및 목표
- 다양한 자연어 이해(NLU) 과제에서 GPT-3.5의 강건성을 평가한다.
- TextFlint의 광범위한 텍스트 변환에 따른 저하를 정량화한다.
- 불안정성, 프롬프트 민감성, 숫자 민감성과 같은 구체적 강건성 문제를 식별한다.
제안 방법
- 9개의 NLU 과제에 걸쳐 약 116K 개의 테스트 샘플을 포함하는 21개 데이터셋을 사용한다.
- 강건성 평가를 위해 TextFlint의 66개 텍스트 변환을 적용한다.
- 성능 변화와 불안정성, 프롬프트 민감성, 숫자 민감성과 같은 강건성 현상을 식별하여 보고한다.
실험 결과
연구 질문
- RQ1TextFlint 변환에 노출될 때 다중 NLU 과제에서 GPT-3.5의 강건성은 얼마나 높은가?
- RQ2GPT-3.5에서 관찰된 주요 강건성 문제(불안정성, 프롬프트 민감성, 숫자 민감성)는 무엇인가?
- RQ3변환 하에 자연어 추론(NLI)과 감정 분석과 같은 과제에서 GPT-3.5의 성능 저하는 어떻게 나타나는가?
- RQ4이러한 과제들에서 강건성 측면에서 GPT-3.5가 미세조정된 모델과 어떻게 비교되는가?
주요 결과
- GPT-3.5는 특정 과제에서 일부 미세조정 모델보다 우수하지만 전반적으로 상당한 강건성 저하를 보인다.
- 자연어 추론(NLI) 과제에서 평균 성능이 최대 35.74%까지 하락할 수 있다.
- 감정 분석(SA) 과제에서 평균 성능이 최대 43.59%까지 하락할 수 있다.
- GPT-3.5는 신뢰성 불안정성, 프롬프트 민감성, 숫자 민감성 등으로 주목할 만한 강건성 문제를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.