QUICK REVIEW

[논문 리뷰] WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models

Conghui He, Zhenjiang Jin|arXiv (Cornell University)|2023. 08. 21.

Topic Modeling인용 수 8

한 줄 요약

WanJuan은 대규모 다국어(중문) 다중모달 데이터셋(text, image-text, video)로 총 용량이 2TB 이상이며, LLMs/MLLMs의 학습 및 평가를 지원하기 위해 출시되었고, 안전성 및 품질 필터링이 적용되어 있습니다.

ABSTRACT

The rise in popularity of ChatGPT and GPT-4 has significantly accelerated the development of large models, leading to the creation of numerous impressive large language models(LLMs) and multimodal large language models (MLLMs). These cutting-edge models owe their remarkable performance to high-quality data. However, the details of the training data used in leading paradigms are often kept confidential. This lack of transparency, coupled with the scarcity of open-source data, impedes further developments within the community. As a response, this paper presents "Wan Juan", a large-scale multimodal dataset composed of both Chinese and English data, collected from a wide range of web sources. The dataset incorporates text, image-text, and video modalities, with a total volume exceeding 2TB. It was utilized in the training of InternLM, a model that demonstrated significant advantages in multi-dimensional evaluations when compared to models of a similar scale. All data can be accessed at https://opendatalab.org.cn/WanJuan1.0.

연구 동기 및 목표

다양한 웹 소스에서 중국어와 영어로 된 대규모 다중모달 학습 코퍼스를 제공한다.
알고리즘적 처리와 수동 검증을 통해 안전성, 높은 품질, 가치 정렬을 보장한다.
일반 JSON 형식, 다운로드 도구, 문서를 제공하여 대형 모델의 일반 학습 및 미세 조정 학습을 용이하게 한다.

제안 방법

영어와 중국어로 된 다양한 웹 소스에서 텍스트, 이미지-텍스트, 비디오 데이터를 수집한다.
부적절한 콘텐츠와 저품질 데이터를 제거하기 위한 다단계 정제 및 필터링을 적용한다(포르노그래피, 폭력, 편향, 자동 생성 콘텐츠 포함).
데이터 선별을 위해 언어 탐지, 중복 제거(MinHashLSH, n-gram), 품질/안전 분류기(FastText)를 사용한다.
사이트별 구문 규칙과 기사 본문 추출(위키피디아 헤더 보존)을 통한 이미지-텍스트 데이터 처리.
통합 JSON 형식으로 데이터를 표준화하고, 다운로드 도구 및 사용 설명서를 제공하여 손쉬운 활용을 돕는다.

실험 결과

연구 질문

RQ1이중 언어 다중모달 코퍼스가 LLMs/MLLMs 학습에 적합하도록 구성 및 규모화되었는가?
RQ2대규모 다국어 데이터를 안전성, 품질, 가치 방향으로 정제하고 정렬하는 방법은 무엇인가?
RQ3다양한 모달리티(text, image-text, video)가 영어-중국어 모델의 사전학습 결과에 미치는 영향은 무엇인가?

주요 결과

텍스트 데이터 구성은 6억 개 이상의 문서로 구성되며 저장 용량은 1TB를 초과한다(텍스트 데이터 총 624M 파일, 1019.7 GB).
교차 간 이미지-텍스트 데이터는 2200만 개 이상의 문서로 이루어졌으며 용량은 200 GB를 초과한다(이미지는 URL을 통해 제공).
비디오 데이터는 1000개가 넘는 비디오를 포함하고 용량은 900 GB를 초과한다.
데이터세트는 알고리즘적 처리와 수동 검증을 통해 안전성, 높은 품질, 가치 정합성을 강조한다.
데이터세트는 단일 JSON 처리 형식, 데이터세트 다운로드 도구 및 빠른 모델 학습을 위한 지원 문서를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.