[論文レビュー] TADS: Task-Aware Data Selection for Multi-Task Multimodal Pre-Training
TADSは intrinsic quality、task relevance、diversityを jointly optimization する学習可能なデータ選択フレームワークを提案し、マルチタスク事前学習のための高ユーティリティなマルチモーダルデータを選択することで、データ量を抑えつつゼロショット性能を向上させる。
Large-scale multimodal pre-trained models like CLIP rely heavily on high-quality training data, yet raw web-crawled datasets are often noisy, misaligned, and redundant, leading to inefficient training and suboptimal generalization. Existing data selection methods are either heuristic-based, suffering from bias and limited diversity, or data-driven but task-agnostic, failing to optimize for multi-task scenarios. To address these gaps, we introduce TADS (Task-Aware Data Selection), a novel framework for multi-task multimodal pre-training that integrates Intrinsic Quality, Task Relevance, and Distributional Diversity into a learnable value function. TADS employs a comprehensive quality assessment system with unimodal and cross-modal operators, quantifies task relevance via interpretable similarity vectors, and optimizes diversity through cluster-based weighting. A feedback-driven meta-learning mechanism adaptively refines the selection strategy based on proxy model performance across multiple downstream tasks. Experiments on CC12M demonstrate that TADS achieves superior zero-shot performance on benchmarks like ImageNet, CIFAR-100, MS-COCO, and Flickr30K, using only 36% of the data while outperforming baselines by an average of 1.0%. This highlights that TADS significantly enhances data efficiency by curating a high-utility subset that yields a much higher performance ceiling within the same computational constraints.
研究の動機と目的
- 大規模マルチモーダル事前学習における naïve なデータスケーリングを超えるデータ選択の動機づけ。
- intrinsic quality、task relevance、diversity を統合する統一的で学習可能なフレームワークの提案。
- 複数 downstream タスクに渡るサブセット選択を最適化するフィードバック駆動のメタ学習ループの開発。
- 信頼性の高い品質信号を生成するための包括的なデデュプリケーションと品質評価パイプラインの提供。
提案手法
- 情報量を保ちつつ冗長性を削減する多層データデデュプリケーション。
- intrinsic quality、task relevance、distributional diversity の三次元データ値特性化。
- Data Value Network (DVN) が品質、関連性、多様性の信号を選択スコアに統合。
- 下流性能を模擬する代理モデルと勾配ベースの方策更新を導くフィードバック駆動の二段階最適化。
- 非微分可能なサブセット選択に対処し、マルチタスク目標と整合するクラスタ認識的勾配推定。
実験結果
リサーチクエスチョン
- RQ1複数の downstream タスクに対してサンプルの有用性を統一的な枠組みで定量化するにはどうすれば良いか。
- RQ2固定された事前学習予算の下で、品質と多様性を持つタスク認識選択は、タスク非認識・単一タスクのアプローチを上回るか。
- RQ3フィードバック駆動のメタ学習ループは選択ポリシーをマルチタスクの目標へ効果的に適応できるか。
- RQ4デデュプリケーションと多様性メカニズムが視覚言語ベンチマークのゼロショット性能へ与える影響はどの程度か。
主な発見
| Method | Type | Data Size | ImageNet-1K Top-1 | CIFAR-100 Top-1 | MS-COCO TR@1 | Flickr30K TR@1 | AVG. | Top-1 | Top-5 | Top-1 | Top-5 | IR@1 | TR@1 | IR@1 | TR@1 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| No Filtering (Baseline) | - | ~10.97M | 28.2 | 53.1 | 25.4 | 58.1 | 27.3 | 18.3 | 46.5 | 35.2 | 36.5 | 18.3 | 46.5 | 35.2 | 36.5 |
| Text Complexity | Task-Agnostic | ~8.56M | 28.9 | 54.3 | 26.0 | 58.8 | 27.4 | 18.8 | 47.4 | 35.8 | 37.2 | 18.8 | 47.4 | 35.8 | 37.2 |
| SemDeDup | Task-Agnostic | ~4.39M | 29.6 | 54.9 | 26.5 | 59.2 | 28.9 | 19.2 | 48.1 | 36.1 | 37.8 | 19.2 | 48.1 | 36.1 | 37.8 |
| CLIP-Score | Task-Agnostic | ~6.91M | 30.1 | 55.3 | 27.2 | 60.5 | 30.7 | 20.6 | 51.9 | 38.8 | 39.4 | 20.6 | 51.9 | 38.8 | 39.4 |
| T-MARS | Task-Agnostic | ~5.49M | 30.8 | 56.4 | 27.8 | 61.0 | 30.2 | 20.2 | 50.8 | 38.3 | 39.4 | 20.2 | 50.8 | 38.3 | 39.4 |
| SIEVE | Task-Agnostic | ~3.29M | 31.7 | 57.0 | 28.5 | 62.5 | 26.6 | 19.0 | 45.2 | 36.7 | 38.4 | 19.0 | 45.2 | 36.7 | 38.4 |
| s-CLIPLoss | Task-Agnostic | ~6.58M | 32.3 | 58.5 | 29.7 | 64.1 | 32.4 | 21.8 | 54.7 | 40.5 | 41.8 | 21.8 | 54.7 | 40.5 | 41.8 |
| EcoDatum | Task-Agnostic | ~4.39M | 36.2 | 62.2 | 34.0 | 69.3 | 35.5 | 24.1 | 58.4 | 43.1 | 45.4 | 24.1 | 58.4 | 43.1 | 45.4 |
| HYPE | Task-Aware | ~3.29M | 36.5 | 62.1 | 32.5 | 67.4 | 32.1 | 22.0 | 53.2 | 40.1 | 43.2 | 22.0 | 53.2 | 40.1 | 43.2 |
| HYPE + s-CLIPLoss | Task-Aware | ~2.52M | 38.2 | 63.8 | 33.8 | 68.9 | 34.2 | 23.1 | 56.5 | 42.0 | 45.1 | 23.1 | 56.5 | 42.0 | 45.1 |
| FLYT + SCS | Task-Aware | ~10.97M | 39.5 | 66.5 | 36.8 | 72.6 | 36.9 | 25.2 | 59.8 | 45.5 | 47.9 | 25.2 | 59.8 | 45.5 | 47.9 |
| TADS (Ours) | Task-Aware | ~3.95M | 40.7 | 66.1 | 38.6 | 72.1 | 38.1 | 26.8 | 60.9 | 47.5 | 48.9 | 26.8 | 60.9 | 47.5 | 48.9 |
- TADS は ImageNet-1K、CIFAR-100、MS-COCO、Flickr30K において、ベースラインより36%のデータしか使っていない状態でゼロショット性能を優位に達成。
- 固定された事前学習予算の下で平均してマルチタスク性能を約1.0%向上。
- タスク認識的関連性と多様性はタスク非認識手法よりデータ効率を向上させ、無駄なノイズの壁を突破。
- アブレーション研究では完全な TADS パイプラインが ImageNet-1K の Top-1 を最も高く(40.7%)達成し、品質、関連性、多様性、デマンド認識最適化の追加で大幅な利得。
- デデュプリケーション(メタデータ、意味情報、品質誘導の三段階)はデータサイズを著しく削減しつつ下流精度を高める。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。