[논문 리뷰] TrustGPT: A Benchmark for Trustworthy and Responsible Large Language Models
TrustGPT는 사회 규범 프롬프트, 인구 통계 그룹, AVA 및 PVA 과제를 사용하여 독성, 편향 및 가치 정렬을 평가하는 종합 벤치마크입니다. 이는 여덟 가지 최신 LLM을 분석하여 윤리적 위험과 개선 여지를 드러냅니다.
Large Language Models (LLMs) such as ChatGPT, have gained significant attention due to their impressive natural language processing capabilities. It is crucial to prioritize human-centered principles when utilizing these models. Safeguarding the ethical and moral compliance of LLMs is of utmost importance. However, individual ethical issues have not been well studied on the latest LLMs. Therefore, this study aims to address these gaps by introducing a new benchmark -- TrustGPT. TrustGPT provides a comprehensive evaluation of LLMs in three crucial areas: toxicity, bias, and value-alignment. Initially, TrustGPT examines toxicity in language models by employing toxic prompt templates derived from social norms. It then quantifies the extent of bias in models by measuring quantifiable toxicity values across different groups. Lastly, TrustGPT assesses the value of conversation generation models from both active value-alignment and passive value-alignment tasks. Through the implementation of TrustGPT, this research aims to enhance our understanding of the performance of conversation generation models and promote the development of language models that are more ethical and socially responsible.
연구 동기 및 목표
- 사전 정의된 사회 규범 프롬프트와 Perspective API 점수를 사용하여 현대 LLM의 독성을 평가한다.
- 인구 집단별 독성을 통해 모델 편향을 측정하고 통계 검정을 적용한다.
- 활동적 및 수동적 과제를 통해 가치 정렬을 평가하여 윤리적 정합성과 거부를 밝힌다.
- 독성, 편향 또는 정합성 불일치를 더 많이 보이는 모델을 식별하여 디톡스 및 RLHF 개선에 활용한다.
제안 방법
- 사회 규범에 기반한 사전 정의된 독성/나쁜/유해 프 prompts 템플릿을 사용하여 독성 콘텐츠를 유도한다.
- Perspective API로 독성을 정량화하고 모델 및 프롬프트 유형별 평균을 계산한다.
- 성별, 인종, 종교 그룹 간의 독성 분포를 Std와 Mann-Whitney U 검정으로 편향을 평가한다.
- 규범의 도덕적 판단에 대한 소프트/하드 정확도를 활용한 활성 가치 정렬(AVA)을 평가한다.
- 노름 충돌 프롬프트에서 RtA(Refuse to Answer) 지표를 사용한 수동 가치 정렬(PVA)을 평가한다.
- ChatGPT, LLaMa, Vicuna, FastChat, ChatGLM, Oasst, Alpaca, Koala를 포함한 여덟 가지 대표 LLM과 Social Chemistry 101를 데이터 세트 소스로 적용한다.
실험 결과
연구 질문
- RQ1신중하게 선택된 사회 규범 프롬프트 하에서 최신 LLM은 얼마나 독성적인가?
- RQ2LLM이 독성을 통해 측정된 인구 통계 그룹 간 편향을 보이는가, 그리고 편향은 얼마나 강한가?
- RQ3노름 충돌 프롬프트 하에서 활성 판단과 수동 거부에서 LLM이 인간의 윤리 규범에 정렬될 수 있는가?
주요 결과
- FastChat이 프롬프트 전반에서 가장 높은 독성을 보인 반면, Alpaca가 가장 낮은 독성을 보인다.
- 대부분의 모델은 보통 및 나쁜 규범에서 좋은 규범보다 독성이 더 높다.
- ChatGPT는 성별, 인종, 종교 카테고리 전반에서 가장 강한 편향 신호를 보이는 경우가 많다.
- AVA 결과에서 ChatGPT가 최상의 하드 및 소프트 정확도를 달성하고, 대부분의 모델이 하드보다 소프트 정확도에서 향상된다.
- PVA 결과는 독성 규범에서 어떤 모델도 RtA 값이 0.7을 넘지 못해 가치 정렬에 개선 여지가 있음을 시사한다.
- 편향과 독성은 모델 전반에 공존하며 RLHF 기반의 윤리적 개선이 필요함을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.