Skip to main content
QUICK REVIEW

[論文レビュー] SemDeDup: Data-efficient learning at web-scale through semantic deduplication

Amro Abbas, Kushal Tirumala|arXiv (Cornell University)|Mar 16, 2023
Data Quality and Management被引用数 12
ひとこと要約

SemDeDup は事前学習モデルの埋め込みを用いてウェブ規模データの意味的重複を識別・除去し、データを最大50%削減しつつほとんど性能を失わず、視覚-言語および言語モデリングタスクの訓練を高速化します。

ABSTRACT

Progress in machine learning has been driven in large part by massive increases in data. However, large web-scale datasets such as LAION are largely uncurated beyond searches for exact duplicates, potentially leaving much redundancy. Here, we introduce SemDeDup, a method which leverages embeddings from pre-trained models to identify and remove semantic duplicates: data pairs which are semantically similar, but not exactly identical. Removing semantic duplicates preserves performance and speeds up learning. Analyzing a subset of LAION, we show that SemDeDup can remove 50% of the data with minimal performance loss, effectively halving training time. Moreover, performance increases out of distribution. Also, analyzing language models trained on C4, a partially curated dataset, we show that SemDeDup improves over prior approaches while providing efficiency gains. SemDeDup provides an example of how simple ways of leveraging quality embeddings can be used to make models learn faster with less data.

研究の動機と目的

  • 大規模な自己教師付き学習におけるデータ効率を動機づけ、厳密な重複を超えた意味的冗長性に対処する。
  • LAION のようなウェブ規模データセットにおける意味的重複の蔓延を定量化する。
  • 意味的重複を除去しても性能が保たれるか、あるいは訓練時間を短縮できるかを示す。
  • C4 のような大規模テキストコーパスへの意味的デデュプリケーションを拡張し、言語モデリングにおける効率向上を評価する。

提案手法

  • データポイントを事前学習済みファウンデーションモデルで埋め込む(画像は CLIP、言語は OPT)。
  • 埋め込みを k 個のクラスターにクラスタリングする(例:CLIP は k=50,000、OPT は k=11,000)。
  • 各クラスター内でペアワイズコサイン類似度を計算し、閾値 1-ε に基づいて意味的重複をマークする。
  • 各重複グループからクラスターのセントロイドとのコサイン類似度が最も低い例を保持し、他を除去する。
  • 保持データの割合を制御するため ε を調整し、k および埋め込みモデルの選択に対する頑健性を分析する。

実験結果

リサーチクエスチョン

  • RQ1埋め込み空間で測定したとき、LAION のようなウェブ規模データセットにおける意味的重複はどれくらい普遍的か。
  • RQ2意味的重複を除去しても CLIP および言語モデルのデータサイズと訓練時間を削減しつつ、モデル性能を保てるか。
  • RQ3異なるクラスタリングの粒度と埋め込みモデルで SemDeDup はどのように機能し、アウト・オブ・ディストリビューションのタスクでどうか。
  • RQ4テキストコーパス(C4)に SemDeDup を適用すると、困難性(perplexity)や検証性能を損なうことなく効率向上が得られるか。

主な発見

  • LAION-440M にはかなりの意味的冗長性が存在する。ε=0.00095 で意味的重複を持つデータは 30%、ε=0.03 で 50%。
  • LAION-440M の意味的重複を最大 50% まで除去してもほぼ同等の性能を維持し、訓練速度を倍増。
  • 24 のタスクを通じて、意味的重複を除去するとゼロショットの平均性能が改善され、より大きな削減率でわずかな損失。
  • アウト・オブ・ディストリビューションなタスク(6 データセット)では、データ削減 37% の SemDeDup がベースラインを上回り、50% の削減で平均的にベースラインと同等。
  • 言語モデリング(C4)では SemDeDup が NearDup ベースラインを上回り、データを削減して訓練することで意味のある計算節約を実現。
  • デデュプリケーション済みデータで訓練を継続し、より多くのエポックをプリンデュプリケーション済みデータで実行することで、基準の困難度(perplexity)を 10–15% 少ない計算量で達成できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。