[論文レビュー] LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset
LMSYS-Chat-1M は、25 の LLM と共に実世界の会話 1,000,000 件のデータセットで、210k のユーザーから収集され、ユーザー間の相互作用、安全性、および指示遵守を研究するために用いられ、4 つの実証的な使用事例を示します。
Studying how people interact with large language models (LLMs) in real-world scenarios is increasingly important due to their widespread use in various applications. In this paper, we introduce LMSYS-Chat-1M, a large-scale dataset containing one million real-world conversations with 25 state-of-the-art LLMs. This dataset is collected from 210K unique IP addresses in the wild on our Vicuna demo and Chatbot Arena website. We offer an overview of the dataset's content, including its curation process, basic statistics, and topic distribution, highlighting its diversity, originality, and scale. We demonstrate its versatility through four use cases: developing content moderation models that perform similarly to GPT-4, building a safety benchmark, training instruction-following models that perform similarly to Vicuna, and creating challenging benchmark questions. We believe that this dataset will serve as a valuable resource for understanding and advancing LLM capabilities. The dataset is publicly available at https://huggingface.co/datasets/lmsys/lmsys-chat-1m.
研究の動機と目的
- 複数のモデルと言語に跨る、LLM-ユーザー間の会話の大規模な実世界データセットを提供する。
- データセットの内容を分析し、キュレーション、統計、トピック分布を含めて、多様性と規模を評価する。
- コンテンツモデレーション、安全性ベンチマーク、指示遵守のファインチューニング、ベンチマーク生成などの実用的な使用事例を示す。
提案手法
- 5か月間にわたり、25モデルをホストする無料のオンライン LLM サービスから100万件の会話を収集する。
- 生の会話を保持しつつ、言語検出とOpenAI moderation API の出力で注釈を付ける。
- サンプリングされた英語のプロンプトを用いた埋め込みベースのクラスタリングでトピック分布を分析し、GPT-4 で中心的なトピックを要約する。
- 4 つの使用事例を示す:コンテンツモデレーションモデルのトレーニング、安全性ベンチマークの構築、指示遵守モデルのファインチューニング、難易度の高いベンチマークプロンプトの作成。
実験結果
リサーチクエスチョン
- RQ1LMSYS-Chat-1M におけるリアルワールドのユーザー会話の特徴と、モデルと言語間の分布はどのようになるか?
- RQ2モデレーション、ベンチマーク、指示チューニングを通じて、より安全で能力の高い LLM システムを構築するために LMSYS-Chat-1M をどのように活用できるか?
- RQ3現実の会話は、ジャイルブレイクの試みや不安全なコンテンツなどの安全上の課題をどの程度明らかにしているか?
- RQ4LMSYS-Chat-1M のサブセットは、ShareGPT のような既存データセットと比較して競争力のある指示遵守モデルを生み出せるか?
- RQ5実ユーザデータから難易度の高いベンチマークプロンプトを抽出して、公開モデルと独自モデルを区別するにはどうすればよいか?
主な発見
- このデータセットは、25モデルからの100万件の会話を、210,479ユーザーとともに、150言語以上にわたって含んでいます。
- 不安全なコンテンツが存在し、会話の5%がOpenAI moderation API によってフラグされており、実世界データに潜む潜在的な害を示しています。
- 微調整された Vicuna-moderator-7B モデルは、モデレーション性能を顕著に向上させ、いくつかの設定で GPT-4 に匹敵します。
- 高品質なプロンプトを使用した場合、LMSYS-Chat-1M のサブセットは Vicuna に近い性能の指示遵守モデルを生み出すことができる;アップボートベースのプロンプトのみでは弱い。
- Arena-Hard-200 は現実の会話から派生した200プロンプトのベンチマークで、MT-Bench と比較して公開モデルと独自モデルの間の性能格差をより大きく示します。
- LMSYS-Chat-1M は既存のデータセットを超えた難易度の高いベンチマークと安全性評価の作成を可能にします。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。