Skip to main content
QUICK REVIEW

[논문 리뷰] DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models

Boxin Wang, Weixin Chen|arXiv (Cornell University)|2023. 06. 20.
Adversarial Robustness in Machine Learning인용 수 59
한 줄 요약

이 논문은 표준 벤치마크와 적대적 조건에서 GPT-3.5와 GPT-4를 여덟 가지 신뢰성 관점(독성, 편향, 강건성, 프라이버시, 윤리, 및 공정성)을 포괄적으로 평가하고 강점과 취약점을 모두 드러낸다.

ABSTRACT

Generative Pre-trained Transformer (GPT) models have exhibited exciting progress in their capabilities, capturing the interest of practitioners and the public alike. Yet, while the literature on the trustworthiness of GPT models remains limited, practitioners have proposed employing capable GPT models for sensitive applications such as healthcare and finance -- where mistakes can be costly. To this end, this work proposes a comprehensive trustworthiness evaluation for large language models with a focus on GPT-4 and GPT-3.5, considering diverse perspectives -- including toxicity, stereotype bias, adversarial robustness, out-of-distribution robustness, robustness on adversarial demonstrations, privacy, machine ethics, and fairness. Based on our evaluations, we discover previously unpublished vulnerabilities to trustworthiness threats. For instance, we find that GPT models can be easily misled to generate toxic and biased outputs and leak private information in both training data and conversation history. We also find that although GPT-4 is usually more trustworthy than GPT-3.5 on standard benchmarks, GPT-4 is more vulnerable given jailbreaking system or user prompts, potentially because GPT-4 follows (misleading) instructions more precisely. Our work illustrates a comprehensive trustworthiness evaluation of GPT models and sheds light on the trustworthiness gaps. Our benchmark is publicly available at https://decodingtrust.github.io/ ; our dataset can be previewed at https://huggingface.co/datasets/AI-Secure/DecodingTrust ; a concise version of this work is at https://openreview.net/pdf?id=kaHpo8OZw2 .

연구 동기 및 목표

  • GPT-3.5와 GPT-4를 여덟 가지 신뢰성 관점(독성, 고정관념 편향, 적대적 강건성, 분포 간 로컬리티 바깥의 강건성, 적대적 시연에 대한 강건성, 프라이버시, 기계 윤리, 및 공정성)을 포괄적으로 평가한다.
  • 표준 벤치마크와 적대적/시스템 프롬 prompts에서 GPT-4와 GPT-3.5의 성능을 비교한다.
  • 사전에 발표되지 않은 취약점을 식별하고 GPT 모델의 향후 개선 및 보다 안전한 배포에 정보를 제공한다.
  • 더 넓은 신뢰성 벤치마킹을 지원하는 오픈 소스 평가 플랫폼과 데이터 세트를 제공한다.

제안 방법

  • 표준 벤치마크(예: RealToxicityPrompts, AdvGLUE) 및 새로 설계된 프롬프트와 데이터 세트를 사용하여 GPT-3.5와 GPT-4에 대한 다각적 평가를 수행한다.
  • 독성, 편향, 강건성 및 기타 관점을 탐색하기 위해 다양한 시스템 프롬프트와 적대적/사용자 프롬프트를 설계한다.
  • OOD(분포 간) 강건성을 스타일 변환, 최근 사건 질의, 및 OOD 시연을 통한 맥락 학습으로 평가한다.
  • 훈련 데이터(Enron)와 대화 중 누설을 추적하여 프라이버시를 평가하고 PII 공개를 테스트한다.
  • 표준 벤치마크와 jailbreaking/회피 프롬프트, 그리고 조건부 행동 시나리오를 통해 기계 윤리를 검토한다.
  • 인구통계학적 변 variation 및 기저율 평형성을 다양한 제로샷 및 몇샷 설정에서 평가하여 공정성을 측정한다.
Figure 1: Examples of undesirable responses of GPT-4 given benign system prompts from different trustworthiness perspectives. Offensive or sensitive information is masked.
Figure 1: Examples of undesirable responses of GPT-4 given benign system prompts from different trustworthiness perspectives. Offensive or sensitive information is masked.

실험 결과

연구 질문

  • RQ1표준 벤치마크 하에서 GPT-4와 GPT-3.5는 독성, 편향, 적대적 강건성, OOD 강건성, 프라이버시, 기계 윤리, 공정성에서 어떤 차이를 보이는가?
  • RQ2시스템 프롬프트와 사용자 프롬프트가 이러한 관점에서의 신뢰성 결과에 어떤 영향을 미치는가?
  • RQ3적대적 시연과 백도어 프롬프트에서 어떤 취약점이 드러나며 모델 버전에 따라 민감도가 어떻게 다른가?
  • RQ4대화 중에 GPT 모델이 훈련 데이터나 개인정보를 어느 정도 누설하는가?
  • RQ5향후 LLM 배치를 위한 신뢰성과 안전성을 높이기 위한 실행 가능한 방향을 식별할 수 있는가?

주요 결과

  • GPT-4는 표준 벤치마크에서 일반적으로 GPT-3.5보다 더 높은 신뢰성을 보이지만 시스템 또는 사용자 프롬프트를 통한 Jailbreaking에는 더 취약하다.
  • GPT 모델은 신중하게 설계된 적대적 프롬프트에서 독성 또는 편향된 출력을 생성할 수 있으며, 특정 프롬프트에서 GPT-4의 민감도가 더 높다.
  • GPT-4는 대상이 되는 적대적 프롬트에 더 취약하고 지시를 더 정확히 따르는 경향이 있어 특정 프롬프트에서 독성이 증가한다.
  • 훈련 데이터(예: Enron) 및 대화 이력의 프라이버시 누출은 탐지 가능하며, 프라이버시 누출 시연에서 예외적으로 PII를 더 잘 보호하는 GPT-4가 나타난다.
  • 적대적 시연은 반사실성, 잘못된 상관관계, 백도어를 통해 모델을 오도할 수 있으며, 일반적으로 백도어 시연에 더 취약한 것은 GPT-4이다.
  • 공정성과 편향은 균형 잡힌 데이터일 때 정확도가 높아지는 반면 비대칭 맥락에서의 불공정성이 더 커지는 트레이드오프를 보이며, 균형 잡힌 몇 샷 프롬프트가 공정성을 개선할 수 있다.
Figure 2: Examples of undesirable responses of GPT-4 given adversarial system prompts from different trustworthiness perspectives. (The word cf is a backdoor trigger added in the context.)
Figure 2: Examples of undesirable responses of GPT-4 given adversarial system prompts from different trustworthiness perspectives. (The word cf is a backdoor trigger added in the context.)

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.