QUICK REVIEW

[논문 리뷰] SemDeDup: Data-efficient learning at web-scale through semantic deduplication

Amro Abbas, Kushal Tirumala|arXiv (Cornell University)|2023. 03. 16.

Data Quality and Management인용 수 12

한 줄 요약

SemDeDup는 웹 스케일 데이터에서 의미적 중복을 식별하고 제거하기 위해 사전 학습된 모델의 임베딩을 사용합니다. 데이터가 최대 50%까지 감소하되 성능 저하가 거의 없거나 없고 비전-언어 및 언어 모델링 작업 전반에서 학습 속도가 빨라집니다.

ABSTRACT

Progress in machine learning has been driven in large part by massive increases in data. However, large web-scale datasets such as LAION are largely uncurated beyond searches for exact duplicates, potentially leaving much redundancy. Here, we introduce SemDeDup, a method which leverages embeddings from pre-trained models to identify and remove semantic duplicates: data pairs which are semantically similar, but not exactly identical. Removing semantic duplicates preserves performance and speeds up learning. Analyzing a subset of LAION, we show that SemDeDup can remove 50% of the data with minimal performance loss, effectively halving training time. Moreover, performance increases out of distribution. Also, analyzing language models trained on C4, a partially curated dataset, we show that SemDeDup improves over prior approaches while providing efficiency gains. SemDeDup provides an example of how simple ways of leveraging quality embeddings can be used to make models learn faster with less data.

연구 동기 및 목표

대용량 자기지도 학습에서 정확한 중복 외의 의미적 중복에 대처하여 데이터 효율성을 높일 것을 동기부여한다.
LAION과 같은 웹 스케일 데이터셋에서 의미적 중복의 만연 정도를 정량화한다.
의미적 중복을 제거해도 성능은 유지되거나 향상되고 학습 시간이 감소하는지 입증한다.
C4와 같은 대형 텍스트 말뭉도에 의미적 중복 제거를 확장하고 언어 모델링에서의 효율성 향상을 평가한다.

제안 방법

사전 학습된 기반 모델(CLIP은 이미지, OPT는 언어)로 데이터를 임베딩한다.
임베딩을 k개의 군집으로 클러스터링한다(예: CLIP의 경우 k=50,000, OPT의 경우 k=11,000).
각 클러스터 내에서 코사인 유사도를 쌍으로 계산하고 임계값 1-ε를 기준으로 의미적 중복을 표시한다.
각 중복 그룹에서 클러스터 중심과의 코사인 유사도가 가장 낮은 예제를 남기고 나머지는 제거한다.
retained 데이터 비율을 제어하기 위해 ε를 미세 조정하고 k 및 임베딩 모델 선택에 대한 강건성을 분석한다.

실험 결과

연구 질문

RQ1임베딩 공간에서 LAION과 같은 웹 스케일 데이터셋에서 의미적 중복이 얼마나 널리 존재하는가?
RQ2CLIP 및 언어 모델에서 의미적 중복을 제거해 데이터 크기와 학습 시간을 줄이면서 모델 성능을 보존할 수 있는가?
RQ3다른 군집화 정밀도와 임베딩 모델에서 SemDeDup의 성능은 어떠하며 분포 외(out-of-distribution) 태스크에서의 성능은 어떠한가?
RQ4텍스트 코퍼스(C4)에 SemDeDup를 적용하면 궁극적으로 perplexity나 검증 성능을 해치지 않으면서 효율성 향상이 나타나는가?

주요 결과

LAION-440M은 상당한 의미적 중복을 포함하고 있다; ε=0.00095에서 30%, ε=0.03에서 50%의 의미적 중복이 존재한다.
LAION-440M의 의미적 중복을 최대 50% 제거하면 거의 같은 성능을 유지하고 학습 속도가 두 배로 증가한다.
24개 태스크 전반에서 의미적 중복 제거 시 제로샷 평균 성능이 향상되며, 더 큰 가지치기 비율에서 손실은 미미하다.
분포 외 태스크(6개 데이터셋)에서 ε를 포함한 SemDeDup은 기본값을 능가하고 50% 제거 시 평균적으로 기본값과 일치한다.
C4에서의 언어 모델링에서 SemDeDup은 NearDup 베이스라인을 능가하며 더 작은 중복 제거 데이터셋으로 학습할 때 실질적인 컴퓨트 절감을 가능하게 한다.
중복 제거 데이터를 사용해 학습을 더 많은 에포크로 계속할 때 기저 perplexity에 비해 10–15%의 컴퓨트 감소로 성능을 유지할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.