[论文解读] WildChat: 1M ChatGPT Interaction Logs in the Wild
WildChat 发布了一个包含真实用户与 ChatGPT 对话的公开数据集(1,000,000 条对话,2,500,000 轮),包含人口统计与头部数据,分析了有害性与多语言使用情况,并展示了对开源模型进行指令式微调的用途。
Chatbots such as GPT-4 and ChatGPT are now serving millions of users. Despite their widespread use, there remains a lack of public datasets showcasing how these tools are used by a population of users in practice. To bridge this gap, we offered free access to ChatGPT for online users in exchange for their affirmative, consensual opt-in to anonymously collect their chat transcripts and request headers. From this, we compiled WildChat, a corpus of 1 million user-ChatGPT conversations, which consists of over 2.5 million interaction turns. We compare WildChat with other popular user-chatbot interaction datasets, and find that our dataset offers the most diverse user prompts, contains the largest number of languages, and presents the richest variety of potentially toxic use-cases for researchers to study. In addition to timestamped chat transcripts, we enrich the dataset with demographic data, including state, country, and hashed IP addresses, alongside request headers. This augmentation allows for more detailed analysis of user behaviors across different geographical regions and temporal dimensions. Finally, because it captures a broad range of use cases, we demonstrate the dataset's potential utility in fine-tuning instruction-following models. WildChat is released at https://wildchat.allen.ai under AI2 ImpACT Licenses.
研究动机与目标
- 通过提供一个大规模、现实世界、多语言的数据集,弥合指令遵循数据的可访问性差距。
- 表征现实世界的使用模式、人口统计与用户–ChatGPT 互动中的有害性。
- 评估数据集在微调开源指令遵循模型方面的实用性。
- 为发布此类数据提供基线分析与伦理考量。
提出的方法
- 在 Hugging Face Spaces 上部署两个公开可访问的聊天服务(GPT-3.5-Turbo 与 GPT-4),在获得用户同意的前提下收集转录文本。
- 使用内容、IP 地址与请求头对轮次进行预处理并链接为完整对话,必要时放宽 IP 匹配。
- 用 Presidio 匿实名用 PII,用 Spacy 进行命名实体识别,并对 IP 进行哈希处理;使用 GeoLite2 将 IP 映射到地理实体。
- 用语言与提示类别分类对数据进行标注(如英语提示、主要语言、任务类别等)。
- 使用 Detoxify 与 OpenAI Moderation API 评估有害性并分析越狱提示。
- 在 WildChat 上对 Llama-2 7B 进行微调以创建 WildLlama,并用 MT-bench 与 LLM Judge 进行评估。
实验结果
研究问题
- RQ1WildChat 捕获的真实世界、具多语言特征的 ChatGPT 互动的使用模式和人口统计有哪些?
- RQ2在真实世界对话中,用户轮次与聊天机器人轮次有多 toxic,不同检测器之间的一致性如何?
- RQ3WildChat 能否有效用于微调指令遵循的开源模型(如 WildLlama),这些模型在标准基准测试中的表现如何?
主要发现
- WildChat 包含 1,039,785 条对话(2,639,415 輪),来自 204,736 个唯一 IP,约 24% 使用 GPT-4、约 76% 使用 GPT-3.5-Turbo。
- 数据集覆盖 68 种语言,英语占轮次的 53%;主要语言包括英语、中文和俄语。
- 有害轮次普遍存在:用户轮次中有 10.46%,聊天机器人轮次中有 6.58% 被 Detoxify 或 Moderation 标记;两者同时被标记的比例为 3.73%。
- 在被标记的用户轮次中,性相关有害性占比最高(按 Moderation 类别为 88.51%)。
- WildChat 的语言多样性与真实用户提示带来高覆盖度的数据用于微调,WildLlama(在 WildChat 上训练)在 MT-bench 指标上优于部分开源基线,但仍落后于专有的 GPT-3.5/4。
- 越狱分析揭示了如 JailMommy 等显著提示,具有显著的成功率,表明防御需求在不断演变。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。