[논문 리뷰] WildChat: 1M ChatGPT Interaction Logs in the Wild
WildChat은 인구통계 및 헤더 데이터를 포함한 1M개의 실제 사용자–ChatGPT 대화를 공개 데이터세트로 발표하고, 독성 및 다국어 사용을 분석하며, 오픈소스 모델의 지시 수행 학습을 위한 유용성을 시연합니다.
Chatbots such as GPT-4 and ChatGPT are now serving millions of users. Despite their widespread use, there remains a lack of public datasets showcasing how these tools are used by a population of users in practice. To bridge this gap, we offered free access to ChatGPT for online users in exchange for their affirmative, consensual opt-in to anonymously collect their chat transcripts and request headers. From this, we compiled WildChat, a corpus of 1 million user-ChatGPT conversations, which consists of over 2.5 million interaction turns. We compare WildChat with other popular user-chatbot interaction datasets, and find that our dataset offers the most diverse user prompts, contains the largest number of languages, and presents the richest variety of potentially toxic use-cases for researchers to study. In addition to timestamped chat transcripts, we enrich the dataset with demographic data, including state, country, and hashed IP addresses, alongside request headers. This augmentation allows for more detailed analysis of user behaviors across different geographical regions and temporal dimensions. Finally, because it captures a broad range of use cases, we demonstrate the dataset's potential utility in fine-tuning instruction-following models. WildChat is released at https://wildchat.allen.ai under AI2 ImpACT Licenses.
연구 동기 및 목표
- 지시에 따른 데이터에 대한 접근성 격차를 대규모의 실제 다국어 데이터세트를 제공함으로써 해소한다.
- 실제 세계의 사용 패턴, 인구통계 및 사용자–ChatGPT 상호작용의 독성 특성을 특징짓는다.
- 데이터세트의 오픈소스 지시 수행 모델 미세조정에 대한 유용성을 평가한다.
- 이러한 데이터를 공개하는 데 따른 기본 분석 및 윤리적 고려사항을 제시한다.
제안 방법
- 허깅페이스 스페이스에서 두 가지 공개 채팅 서비스(GPT-3.5-Turbo 및 GPT-4)를 배치하여 사용자 동의를 얻은 대화록을 수집한다.
- 콘텐츠, IP 주소 및 요청 헤더를 사용하여 턴을 전체 대화로 사전처리 및 연결하며 필요 시 IP 매칭을 완화한다.
- Presidio로 PII를 익명화하고, Spacy로 NER 처리하며, IP를 해시화하고 GeoLite2를 이용해 IP를 지리 엔티티에 매핑한다.
- 데이터에 언어 및 프롬프트 카테고리 분류(예: 영어 프롬프트, 주요 언어, 작업 카테고리)로 주석을 추가한다.
- Detoxify와 OpenAI Moderation API를 사용해 독성을 평가하고 잠재적 탈옥 프롬프트를 분석한다.
- WildChat에서 WildLlama를 만들기 위해 WildChat으로 미세조정하고 MT-bench 및 LLM Judge로 평가한다.
실험 결과
연구 질문
- RQ1WildChat를 통해 포착된 ChatGPT 상호작용의 실제 세계 다국어 사용 패턴과 인구통계는 무엇인가?
- RQ2실제 대화에서 사용자 턴 및 챗봇 턴의 독성 수준은 어느 정도이며, 여러 탐지기가 얼마나 잘 일치하는가?
- RQ3WildChat를 사용해 지시 수행형 오픈소스 모델(예: WildLlama)을 효과적으로 미세조정할 수 있는가, 그리고 이들 모델은 표준 벤치마크에서 어떻게 성능을 보이는가?
주요 결과
- WildChat은 1,039,785 conversations (2,639,415 turns) from 204,736 unique IPs, with ~24% GPT-4 and ~76% GPT-3.5-Turbo usage.
- The dataset spans 68 languages with English accounting for 53% of turns; top languages include English, Chinese, and Russian.
- Toxic turns are prevalent: 10.46% of user turns and 6.58% of chatbot turns flagged by either Detoxify or Moderation; only 3.73% are flagged by both.
- Sexual toxicity dominates among flagged user turns (88.51% per Moderation’s categories).
- WildChat’s language diversity and real-user prompts yield high data coverage for fine-tuning, with WildLlama (trained on WildChat) outperforming some open-source baselines on MT-bench metrics, though lagging proprietary GPT-3.5/4.
- Jailbreaking analysis reveals prominent prompts (e.g., JailMommy) with notable success rates, indicating evolving defensive needs.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.