[논문 리뷰] Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT
이 논문은 GLUE 벤치마크에서 미세 조정된 BERT류 모델과 비교하여 ChatGPT를 평가하고, 추론/추리 성능은 강하지만 재구성(paraphrase) 및 유사성 처리에는 약점을 발견하며, 고급 프롬프트가 ChatGPT의 성능을 향상시켜 특정 작업에서 RoBERTa-large를 능가하기도 한다.
Recently, ChatGPT has attracted great attention, as it can generate fluent and high-quality responses to human inquiries. Several prior studies have shown that ChatGPT attains remarkable generation ability compared with existing models. However, the quantitative analysis of ChatGPT's understanding ability has been given little attention. In this report, we explore the understanding ability of ChatGPT by evaluating it on the most popular GLUE benchmark, and comparing it with 4 representative fine-tuned BERT-style models. We find that: 1) ChatGPT falls short in handling paraphrase and similarity tasks; 2) ChatGPT outperforms all BERT models on inference tasks by a large margin; 3) ChatGPT achieves comparable performance compared with BERT on sentiment analysis and question-answering tasks. Additionally, by combining some advanced prompting strategies, we show that the understanding ability of ChatGPT can be further improved.
연구 동기 및 목표
- GLUE 벤치를 통해 다양한 NLU 작업에서 ChatGPT의 이해 능력 평가.
- 대표적인 미세 조정된 BERT류 모델(BERT-base, BERT-large, RoBERTa-base, RoBERTa-large)과의 비교.
- 프롬프트 전략이 ChatGPT의 성능에 미치는 영향 조사(적은 샷, 제로샷 CoT, 수동 적은 샷 CoT).
- entailment, paraphrase 및 similarity 작업에서 ChatGPT의 작업별 강점과 약점 식별.
- 프롬프트를 통한 이해 향상의 잠재적 한계와 실패 사례를 탐구하고 개선 방향 제시.
제안 방법
- GLUE 과제에서 작업별 프롬프트를 사용하여 ChatGPT와 네 가지 BERT류 기준 모델 평가.
- 클래스당 dev 세트 인스턴스 25개 샘플링(또는 STS-B는 50개)으로 평가 하위 집합 생성.
- 작업별 표준 지표 사용(정확도, F1, Pearson/Spearman, MCC) 및 적합한 경우 적용.
- 하한선 이해를 확인하기 위해 제로샷 ChatGPT와 미세 조정 기준선을 비교.
- 고급 프롬프트 전략(표준 적은 샷, 제로샷 CoT, 수동 적은 샷 CoT)을 적용하여 이득 평가.
- 클래스별 결과 분석 및 실패와 강점을 보여주는 사례 연구 제시.
실험 결과
연구 질문
- RQ1제로샷 설정에서 ChatGPT가 GLUE 작업에서 기본 크기의 BERT와 비교할 만한 이해를 달성할 수 있는가?
- RQ2GLUE 내에서 추론 대 paraphrase/유사성 작업에서 ChatGPT의 성능은 어떠한가?
- RQ3고급 프롬프트 전략이 ChatGPT의 이해를 향상시키며 어떤 전략이 가장 효과적인가?
- RQ4NLU 작업에서 ChatGPT의 주목할 만한 실패 모드는 무엇이며, 프롬프트가 이를 어떻게 해결할 수 있는가?
- RQ5프롬프트가 특정 작업에서 RoBERTa-large에 근접하거나 이를 넘어서게 할 수 있는 정도는 얼마나 되는가?
주요 결과
- ChatGPT는 추론 작업에서 강한 성능을 보이나 paraphrase 및 유사성 작업, 특히 음성(음수) 샘플에서 약한 결과를 보임.
- 일부 추론 작업에서 모든 BERT류 모델보다 우수한 성능을 보여 notable한 추론 능력을 시사.
- 고급 프롬프트를 사용하면 ChatGPT가 RoBERTa-large에 상당히 근접하고 특정 작업에서 이를 능가하는 경우도 있지만 평균 성능 면에서는 차이가 남.
- 제로샷 ChatGPT는 프롬프트 전략으로 강화될 때 기본 RoBERTa와 비슷한 성능에 도달하지만 전반적으로 가장 강한 모델보다 뒤처짐.
- 수동 적은 샷 체인-오브-사고 프롬팅은 평가된 프롬프트 방식 중에서 가장 큰 성능 향상을 보임.
- 원샷 프롬프트 예시의 민감도에 따라 성능이 좌우되므로 예시의 관련성 및 테스트 데이터와의 유사성이 중요함.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.