[논문 리뷰] On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective
본 논문은 제로샷 설정에서 적대적 입력 및 분포 외(out-of-distribution) 데이터에 대한 ChatGPT의 강건성을 평가하고, 여러 NLP 작업에서 다른 기초 모델과 비교하며 한계점과 향후 방향을 논의한다.
ChatGPT is a recent chatbot service released by OpenAI and is receiving increasing attention over the past few months. While evaluations of various aspects of ChatGPT have been done, its robustness, i.e., the performance to unexpected inputs, is still unclear to the public. Robustness is of particular concern in responsible AI, especially for safety-critical applications. In this paper, we conduct a thorough evaluation of the robustness of ChatGPT from the adversarial and out-of-distribution (OOD) perspective. To do so, we employ the AdvGLUE and ANLI benchmarks to assess adversarial robustness and the Flipkart review and DDXPlus medical diagnosis datasets for OOD evaluation. We select several popular foundation models as baselines. Results show that ChatGPT shows consistent advantages on most adversarial and OOD classification and translation tasks. However, the absolute performance is far from perfection, which suggests that adversarial and OOD robustness remains a significant threat to foundation models. Moreover, ChatGPT shows astounding performance in understanding dialogue-related texts and we find that it tends to provide informal suggestions for medical tasks instead of definitive answers. Finally, we present in-depth discussions of possible research directions.
연구 동기 및 목표
- 표준 NLP 벤치마크(AdvGLUE, ANLI) 및 적대적 번역 과제에서 ChatGPT의 적대적 강건성 평가.
- 새로운 데이터셋(Flipkart, DDXPlus)에서 제로샷 설정으로 ChatGPT의 분포 외 강건성 평가.
- 적대적 및 OOD 조건에서 ChatGPT의 성능을 다양한 대형 기초 모델과 비교.
- 기초 모델의 강건성 문제점에 대한 분석과 향후 연구 방향에 대한 논의 제공.
제안 방법
- AdvGLUE와 ANLI에 대한 제로샷 평가를 사용하여 공격 성공률(ASR)을 통한 적대적 강건성 평가.
- Flipkart와 DDXPlus에서 F1-점수를 지표로 삼아 분포 외 강건성 평가.
- AdvGLUE-T에서 ChatGPT와 미세조정된 MT 모델 및 GPT 계열 기준(BLEU, GLEU, METEOR)을 비교하는 제로샷 기계 번역 평가를 포함.
- HuggingFace와 OpenAI API에서 대표적인 기초 모델 집합을 선택하여 비교 기준으로 삼기.
- 모델 간 비교 가능성을 보장하기 위해 프롬프트 기반 평가와 출력의 수동 처리를 촉진.

실험 결과
연구 질문
- RQ1제로샷 설정에서 텍스트 분류 및 NLI 과제에서 적대적 교란에 대해 ChatGPT의 강건성은 어떠한가?
- RQ2다른 대형 기초 모델과 비교할 때 ChatGPT의 분포 외(OOD) 데이터 성능은 어떠한가?
- RQ3강건성 문제하에서 번역 및 대화 관련 NLP 과제에서 ChatGPT의 상대적 강점과 약점은 무엇인가?
- RQ4적대적 공격 및 OOD 강건성이 안전-중요한 또는 도메인 시프트가 있는 응용 분야에서 ChatGPT 배치에 어떤 함의를 가지는가?
주요 결과
- ChatGPT는 적대적 분류 과제에서 많은 기준선 대비 일관된 향상을 보이나, 절대 성능은 여전히 미완전하다.
- ChatGPT 및 다른 GPT-계열 모델은 OOD 데이터에서 좋은 성능을 보이며, 많은 경쟁자 대비 의학 대화인 DDXPlus에서 특히 강하다.
- ChatGPT는 적대적 입력하에서도 번역의 가독성이 우수하지만, 특정 지표에서 번역 성능이 일부 지시학습된 동료들보다 뒤처질 수 있다.
- ChatGPT의 의학 관련 응답은 확정적 진단보다는 정보를 바탕으로 한 분석 및 권고를 제공하는 경향이 있어 안전성 의식이 높음을 시사한다.
- 더 큰 지시 기반 조정 모델들(예: Flan-T5-L)은 일부 과제에서 더 큰 모델의 성능에 근접하거나 이를 상회할 수 있어 강건성을 위한 지시 조정의 이점을 시사한다.
- 본 연구는 다수의 기초 모델의 제로샷 강건성이 여전히 취약점임을 강조하며, 강건한 학습 및 방어 전략의 필요성을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.