Skip to main content
QUICK REVIEW

[논문 리뷰] WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models

Conghui He, Zhenjiang Jin|arXiv (Cornell University)|2023. 08. 21.
Topic Modeling인용 수 8
한 줄 요약

WanJuan은 대규모 다국어(중문) 다중모달 데이터셋(text, image-text, video)로 총 용량이 2TB 이상이며, LLMs/MLLMs의 학습 및 평가를 지원하기 위해 출시되었고, 안전성 및 품질 필터링이 적용되어 있습니다.

ABSTRACT

The rise in popularity of ChatGPT and GPT-4 has significantly accelerated the development of large models, leading to the creation of numerous impressive large language models(LLMs) and multimodal large language models (MLLMs). These cutting-edge models owe their remarkable performance to high-quality data. However, the details of the training data used in leading paradigms are often kept confidential. This lack of transparency, coupled with the scarcity of open-source data, impedes further developments within the community. As a response, this paper presents "Wan Juan", a large-scale multimodal dataset composed of both Chinese and English data, collected from a wide range of web sources. The dataset incorporates text, image-text, and video modalities, with a total volume exceeding 2TB. It was utilized in the training of InternLM, a model that demonstrated significant advantages in multi-dimensional evaluations when compared to models of a similar scale. All data can be accessed at https://opendatalab.org.cn/WanJuan1.0.

연구 동기 및 목표

  • 다양한 웹 소스에서 중국어와 영어로 된 대규모 다중모달 학습 코퍼스를 제공한다.
  • 알고리즘적 처리와 수동 검증을 통해 안전성, 높은 품질, 가치 정렬을 보장한다.
  • 일반 JSON 형식, 다운로드 도구, 문서를 제공하여 대형 모델의 일반 학습 및 미세 조정 학습을 용이하게 한다.

제안 방법

  • 영어와 중국어로 된 다양한 웹 소스에서 텍스트, 이미지-텍스트, 비디오 데이터를 수집한다.
  • 부적절한 콘텐츠와 저품질 데이터를 제거하기 위한 다단계 정제 및 필터링을 적용한다(포르노그래피, 폭력, 편향, 자동 생성 콘텐츠 포함).
  • 데이터 선별을 위해 언어 탐지, 중복 제거(MinHashLSH, n-gram), 품질/안전 분류기(FastText)를 사용한다.
  • 사이트별 구문 규칙과 기사 본문 추출(위키피디아 헤더 보존)을 통한 이미지-텍스트 데이터 처리.
  • 통합 JSON 형식으로 데이터를 표준화하고, 다운로드 도구 및 사용 설명서를 제공하여 손쉬운 활용을 돕는다.

실험 결과

연구 질문

  • RQ1이중 언어 다중모달 코퍼스가 LLMs/MLLMs 학습에 적합하도록 구성 및 규모화되었는가?
  • RQ2대규모 다국어 데이터를 안전성, 품질, 가치 방향으로 정제하고 정렬하는 방법은 무엇인가?
  • RQ3다양한 모달리티(text, image-text, video)가 영어-중국어 모델의 사전학습 결과에 미치는 영향은 무엇인가?

주요 결과

  • 텍스트 데이터 구성은 6억 개 이상의 문서로 구성되며 저장 용량은 1TB를 초과한다(텍스트 데이터 총 624M 파일, 1019.7 GB).
  • 교차 간 이미지-텍스트 데이터는 2200만 개 이상의 문서로 이루어졌으며 용량은 200 GB를 초과한다(이미지는 URL을 통해 제공).
  • 비디오 데이터는 1000개가 넘는 비디오를 포함하고 용량은 900 GB를 초과한다.
  • 데이터세트는 알고리즘적 처리와 수동 검증을 통해 안전성, 높은 품질, 가치 정합성을 강조한다.
  • 데이터세트는 단일 JSON 처리 형식, 데이터세트 다운로드 도구 및 빠른 모델 학습을 위한 지원 문서를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.