[논문 리뷰] Red teaming ChatGPT via Jailbreaking: Bias, Robustness, Reliability and Toxicity
본 논문은 편향성, 신뢰성, 강건성, 독성에 걸친 ChatGPT의 질적 레드팀을 벤치마크와 사례 연구를 사용하여 수행하고, 윤리적 위험 및 jailbreak 취약점을 식별한다.
Recent breakthroughs in natural language processing (NLP) have permitted the synthesis and comprehension of coherent text in an open-ended way, therefore translating the theoretical algorithms into practical applications. The large language models (LLMs) have significantly impacted businesses such as report summarization software and copywriters. Observations indicate, however, that LLMs may exhibit social prejudice and toxicity, posing ethical and societal dangers of consequences resulting from irresponsibility. Large-scale benchmarks for accountable LLMs should consequently be developed. Although several empirical investigations reveal the existence of a few ethical difficulties in advanced LLMs, there is little systematic examination and user study of the risks and harmful behaviors of current LLM usage. To further educate future efforts on constructing ethical LLMs responsibly, we perform a qualitative research method called ``red teaming'' on OpenAI's ChatGPT\footnote{In this paper, ChatGPT refers to the version released on Dec 15th.} to better understand the practical features of ethical dangers in recent LLMs. We analyze ChatGPT comprehensively from four perspectives: 1) extit{Bias} 2) extit{Reliability} 3) extit{Robustness} 4) extit{Toxicity}. In accordance with our stated viewpoints, we empirically benchmark ChatGPT on multiple sample datasets. We find that a significant number of ethical risks cannot be addressed by existing benchmarks, and hence illustrate them via additional case studies. In addition, we examine the implications of our findings on AI ethics and harmal behaviors of ChatGPT, as well as future problems and practical design considerations for responsible LLMs. We believe that our findings may give light on future efforts to determine and mitigate the ethical hazards posed by machines in LLM applications.
연구 동기 및 목표
- ChatGPT에서 벤치마크와 인간 평가를 사용하여 윤리적 위험(편향, 독성)을 특징짓다.
- Perturbations, adversarial prompts, 및 사실적 질문에서도 ChatGPT의 강건성과 신뢰성을 평가하다.
- 다양한 시나리오에서의 실세계 취약점(예: 프롬프트 주입) 및 언어/다중언어 편향을 파악하다.
- 대규모 언어 모델의 책임 있는 개발을 위한 설계 고려사항과 지침을 제시하다.
제안 방법
- HELM-정렬 원칙에 따라 편향, 신뢰성, 강건성, 독성의 네 가지 관점에서 ChatGPT를 레드팀으로 분석한다.
- BBQ(질문-응답의 편향)와 BOLD(텍스트 생성의 편향 및 고정관념)에서 EM 및 편향 관련 지표로 ChatGPT를 벤치마크한다.
- 제로샷 설정에서 InstructGPT(davinci-v2) 및 GPT-3(davinci-v1)와 ChatGPT를 비교한다.
- 언어 번역, 코드 생성, 개방형 대화에 대한 사례 연구를 수행하여 벤치마크를 넘어서는 추가 편향을 드러낸다.
- 의미적 섭Perturbations(오타, 형식화) 및 IMDB와 BoolQ에서의 대조 세트를 통해 강건성을 평가하고, 지표로 EM을 사용한다.
- 안전성과 jailbreak 취약성을 평가하기 위해 적대적 프롬프트 주입 시나리오를 테스트한다.
- OpenBookQA와 TruthfulQA를 통해 신뢰성을 평가하고 모델 간 Exact Match 성능을 비교한다.

실험 결과
연구 질문
- RQ1실용적 사용에서 ChatGPT가 보이는 윤리적 위험(편향, 신뢰성, 강건성, 독성)은 무엇인가?
- RQ2기존 벤치마크가 ChatGPT의 이러한 윤리적 위험을 얼마나 잘 포착하고, 혹은 포착하지 못하는가?
- RQ3적대적 프롬프트와 jailbreak 시도에 대해 ChatGPT는 얼마나 취약하며, 안전 메커니즘은 어느 정도 우회되는가?
- RQ4다국어 및 코드 생성 맥락에서의 편향과 공정성 면에서 ChatGPT의 성능은 다른 SOTA LLM과 비교하여 어떤가?
- RQ5해를 완화하고 책임 있는 배포를 개선하기 위한 설계 고려사항은 무엇인가?
주요 결과
- ChatGPT는 제로샷 평가에서 BBQ 및 BOLD 벤치마크에서 baselines인 InstructGPT 및 GPT-3보다 편향 수준이 낮은 경향을 보인다.
- ChatGPT는 벤치마크된 과제에서 강한 강건성을 보이며, 변 perturbation 하에서 IMDB와 BoolQ의 의미론적 강건성에서 Baseline보다 우수한 성능을 보인다.
- 케이스 스터디를 통해 벤치마크를 넘어서는 언어 간 이해 편향 및 코드 생성 경향 등 여러 윤리적 위험이 관찰된다.
- 제어된 jailbreak 프롬프트 주입 연구에서 ChatGPT는 높은 안전성을 보이며 100개의 시나리오 중 2개만이 직접 응답을 보였고, 다수의 프롬프트가 안전장치를 우회했다.
- 적대적 프롬프트 주입은 jailbreak 시도가 많은 경우 안전 메커니즘을 우회할 수 있음을 보여주며, 실제 사용에서의 취약점을 시사한다.
- Reliability 결과는 OpenBookQA 및 TruthfulQA에서 ChatGPT가 InstructGPT 및 GPT-3에 비해 경쟁력 있는 Exact Match 성능을 유지하지만 일부 지식 분야에서 약점을 보임을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.