QUICK REVIEW

[论文解读] LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset

Lianmin Zheng, Wei-Lin Chiang|arXiv (Cornell University)|Sep 21, 2023

Topic Modeling被引用 24

一句话总结

LMSYS-Chat-1M 是一个包含 25 个大语言模型的 1,000,000 个真实世界对话的数据集，来自 210k 用户，用于研究用户互动、安全性和指令遵循，展示四个使用案例。

ABSTRACT

Studying how people interact with large language models (LLMs) in real-world scenarios is increasingly important due to their widespread use in various applications. In this paper, we introduce LMSYS-Chat-1M, a large-scale dataset containing one million real-world conversations with 25 state-of-the-art LLMs. This dataset is collected from 210K unique IP addresses in the wild on our Vicuna demo and Chatbot Arena website. We offer an overview of the dataset's content, including its curation process, basic statistics, and topic distribution, highlighting its diversity, originality, and scale. We demonstrate its versatility through four use cases: developing content moderation models that perform similarly to GPT-4, building a safety benchmark, training instruction-following models that perform similarly to Vicuna, and creating challenging benchmark questions. We believe that this dataset will serve as a valuable resource for understanding and advancing LLM capabilities. The dataset is publicly available at https://huggingface.co/datasets/lmsys/lmsys-chat-1m.

研究动机与目标

提供一个跨多个模型和语言的大规模真实世界 LLM-用户对话数据集。
分析数据集内容，包括整理、统计和主题分布，以评估多样性和规模。
展示实际用例，如内容审核、安全基准测试、指令遵循微调，以及基准生成。

提出的方法

在五个月内，从一个免费在线 LLM 服务收集 1,000,000 次对话，该服务托管 25 个模型。
在保留原始对话的同时，使用语言检测和 OpenAI moderation API 输出进行注释。
使用基于嵌入的聚类对抽样自英语提示进行分析，并用 GPT-4 总结核心主题。
展示四个用例：内容审核模型训练、安全基准构建、指令遵循模型微调，以及具有挑战性的基准提示的创建。

实验结果

研究问题

RQ1LMSYS-Chat-1M 中跨模型和语言的真实世界用户对话的特征与分布是什么？
RQ2如何通过审查、基准测试和指令微调来利用 LMSYS-Chat-1M 构建更安全、更强大的 LLM 系统？
RQ3真实世界对话在多大程度上揭示了安全挑战，如越狱尝试和不安全内容？
RQ4LMSYS-Chat-1M 的子集是否能够产生与现有数据集如 ShareGPT 相当的指令遵循模型？
RQ5如何从真实用户数据中提取具有挑战性的基准提示，以区分开放模型和专有模型？

主要发现

该数据集包含来自 25 个模型的 1,000,000 次对话，涉及 210,479 位用户，覆盖 150+ 种语言。
存在不安全内容，有 5% 的对话被 OpenAI moderation API 标注，表明真实世界数据中的潜在危害。
微调后的 Vicuna-moderator-7B 模型显著提升了审核性能，在某些设置下可达到 GPT-4 的水平。
使用高质量提示时，来自 LMSYS-Chat-1M 的子集可以产生接近 Vicuna 的指令遵循模型性能；仅使用 Upvote 基于提示则较弱。
Arena-Hard-200，基于真实对话的 200 提示基准，揭示了开放模型与专有模型之间的性能差距，较 MT-Bench 更大。
LMSYS-Chat-1M 能够创建超越现有数据集的具有挑战性的基准和安全评估。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。