[论文解读] WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models
WanJuan 是一个大规模的中英双语多模态数据集(文本、图片-文本、视频),总量超过2TB,用于支持LLMs/MLLMs的训练和评估,并含安全与质量筛选。
The rise in popularity of ChatGPT and GPT-4 has significantly accelerated the development of large models, leading to the creation of numerous impressive large language models(LLMs) and multimodal large language models (MLLMs). These cutting-edge models owe their remarkable performance to high-quality data. However, the details of the training data used in leading paradigms are often kept confidential. This lack of transparency, coupled with the scarcity of open-source data, impedes further developments within the community. As a response, this paper presents "Wan Juan", a large-scale multimodal dataset composed of both Chinese and English data, collected from a wide range of web sources. The dataset incorporates text, image-text, and video modalities, with a total volume exceeding 2TB. It was utilized in the training of InternLM, a model that demonstrated significant advantages in multi-dimensional evaluations when compared to models of a similar scale. All data can be accessed at https://opendatalab.org.cn/WanJuan1.0.
研究动机与目标
- 提供一个来自多样化网页来源的中文和英文大规模多模态训练语料库。
- 通过算法处理和人工验证,确保安全、高质量和价值取向的一致性。
- 提供统一的JSON格式、下载工具和文档,以便对大模型进行原生训练和微调训练。
提出的方法
- 从多样化网页来源收集英文和中文的文本、图片-文本和视频数据。
- 进行多阶段清洗和筛选,去除不良内容与低质量数据(色情、暴力、偏见、自动生成内容)。
- 使用语言检测、去重(MinHashLSH、n-grams)以及质量/安全分类器(FastText)进行数据筛选。
- 对图片-文本数据应用站点特定的解析规则,并仅提取正文(保留Wikipedia标题)。
- 将数据标准化为统一的JSON格式,并提供下载工具和文档以便于使用。
实验结果
研究问题
- RQ1适合用于训练LLMs/MLLMs的双语多模态语料的组成与规模应该如何?
- RQ2如何对大规模多语言数据进行清理、对齐以实现安全性、质量和价值导向?
- RQ3多样化模态(文本、图片-文本、视频)对英文-中文模型预训练结果有何影响?
主要发现
- 文本数据组件超过6亿文档,存储规模超过1TB(文本数据总计624M文件,1019.7 GB)。
- 交错的图片-文本数据超过2200万文档,规模超过200 GB(图片通过URL提供)。
- 视频数据包括超过1000个视频,规模超过900 GB。
- 数据集通过算法处理和人工验证,强调安全性、高质量和价值对齐。
- 数据集提供统一的JSON处理格式、数据集下载工具及相关文档,以便快速进行模型训练。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。