QUICK REVIEW

[논문 리뷰] TADS: Task-Aware Data Selection for Multi-Task Multimodal Pre-Training

Guanjie Cheng, Boyi Li|arXiv (Cornell University)|2026. 02. 05.

Domain Adaptation and Few-Shot Learning인용 수 0

한 줄 요약

TADS는 학습 가능한, 작업 인지 데이터 선택 프레임워크를 도입하여 고유 품질, 작업 관련성, 다양성을 함께 최적화하고 멀티모달 데이터를 선택해 멀티태스크 사전학습에 고유한 유용성을 제공하며 데이터가 적어도 제로샷 성능을 개선합니다.

ABSTRACT

Large-scale multimodal pre-trained models like CLIP rely heavily on high-quality training data, yet raw web-crawled datasets are often noisy, misaligned, and redundant, leading to inefficient training and suboptimal generalization. Existing data selection methods are either heuristic-based, suffering from bias and limited diversity, or data-driven but task-agnostic, failing to optimize for multi-task scenarios. To address these gaps, we introduce TADS (Task-Aware Data Selection), a novel framework for multi-task multimodal pre-training that integrates Intrinsic Quality, Task Relevance, and Distributional Diversity into a learnable value function. TADS employs a comprehensive quality assessment system with unimodal and cross-modal operators, quantifies task relevance via interpretable similarity vectors, and optimizes diversity through cluster-based weighting. A feedback-driven meta-learning mechanism adaptively refines the selection strategy based on proxy model performance across multiple downstream tasks. Experiments on CC12M demonstrate that TADS achieves superior zero-shot performance on benchmarks like ImageNet, CIFAR-100, MS-COCO, and Flickr30K, using only 36% of the data while outperforming baselines by an average of 1.0%. This highlights that TADS significantly enhances data efficiency by curating a high-utility subset that yields a much higher performance ceiling within the same computational constraints.

연구 동기 및 목표

대 naive 데이터 확장을 넘어 대규모 멀티모달 사전학습을 위한 데이터 선택의 동기를 제시한다.
내재적 품질, 작업 관련성, 다양성을 통합하는 통합형 학습 가능한 프레임워크를 제안한다.
여러 다운스트림 작업 전반에서 부분집합 선택을 최적화하기 위한 피드백 주도 메타 학습 루프를 개발한다.
신뢰할 수 있는 품질 신호를 생성하기 위한 광범위한 중복 제거 및 품질 평가 파이프라인을 제공한다.

제안 방법

정보 샘플을 보존하면서 중복성을 줄이기 위한 다층 데이터 중복 제거.
내재적 품질, 작업 관련성, 분포 다양성의 3차원 데이터 가치 특성화.
품질, 적합성, 다양성 신호를 선택 점수로 집계하는 Data Value Network (DVN).
다운스트림 성능을 시뮬레이션하고 그래디언트 기반 정책 업데이트를 유도하기 위한 프록시 모델을 활용한 계층적 피드백 주도 최적화.
다중 작업 목표와의 정렬을 위한 비분화 가능 부분집합 선택을 다루는 군집 인식 그래디언트 추정.

실험 결과

연구 질문

RQ1여러 다운스트림 작업에 대한 샘플 유용성을 단일 프레임워크로 어떻게 정량화할 수 있는가?
RQ2품질과 다양성을 갖춘 작업 인지 선택이 고정된 사전학습 예산 하에서 작업 비능동성 및 단일 작업 접근법보다 더 나은 성능을 내는가?
RQ3피드백 주도 메타 학습 루프가 선택 정책을 다중 작업 목표에 효과적으로 적응시킬 수 있는가?
RQ4중복 제거 및 다양성 메커니즘이 비전-언어 벤치마크에서 제로샷 성능에 미치는 영향은 무엇인가?

주요 결과

방법	유형	데이터 크기	ImageNet-1K Top-1	CIFAR-100 Top-1	MS-COCO TR@1	Flickr30K TR@1	AVG.	Top-1	Top-5	Top-1	Top-5	IR@1	TR@1	IR@1	TR@1
No Filtering (Baseline)	-	~10.97M	28.2	53.1	25.4	58.1	27.3	18.3	46.5	35.2	36.5	18.3	46.5	35.2	36.5
Text Complexity	Task-Agnostic	~8.56M	28.9	54.3	26.0	58.8	27.4	18.8	47.4	35.8	37.2	18.8	47.4	35.8	37.2
SemDeDup	Task-Agnostic	~4.39M	29.6	54.9	26.5	59.2	28.9	19.2	48.1	36.1	37.8	19.2	48.1	36.1	37.8
CLIP-Score	Task-Agnostic	~6.91M	30.1	55.3	27.2	60.5	30.7	20.6	51.9	38.8	39.4	20.6	51.9	38.8	39.4
T-MARS	Task-Agnostic	~5.49M	30.8	56.4	27.8	61.0	30.2	20.2	50.8	38.3	39.4	20.2	50.8	38.3	39.4
SIEVE	Task-Agnostic	~3.29M	31.7	57.0	28.5	62.5	26.6	19.0	45.2	36.7	38.4	19.0	45.2	36.7	38.4
s-CLIPLoss	Task-Agnostic	~6.58M	32.3	58.5	29.7	64.1	32.4	21.8	54.7	40.5	41.8	21.8	54.7	40.5	41.8
EcoDatum	Task-Agnostic	~4.39M	36.2	62.2	34.0	69.3	35.5	24.1	58.4	43.1	45.4	24.1	58.4	43.1	45.4
HYPE	Task-Aware	~3.29M	36.5	62.1	32.5	67.4	32.1	22.0	53.2	40.1	43.2	22.0	53.2	40.1	43.2
HYPE + s-CLIPLoss	Task-Aware	~2.52M	38.2	63.8	33.8	68.9	34.2	23.1	56.5	42.0	45.1	23.1	56.5	42.0	45.1
FLYT + SCS	Task-Aware	~10.97M	39.5	66.5	36.8	72.6	36.9	25.2	59.8	45.5	47.9	25.2	59.8	45.5	47.9
TADS (Ours)	Task-Aware	~3.95M	40.7	66.1	38.6	72.1	38.1	26.8	60.9	47.5	48.9	26.8	60.9	47.5	48.9

TADS는 데이터의 36%만 사용하더라도 ImageNet-1K, CIFAR-100, MS-COCO, Flickr30K 전반에서 우수한 제로샷 성능을 달성한다.
고정된 사전학습 예산하에서 평균적으로 TADS가 다중 작업 성능을 약 1.0% 향상시킨다.
작업 인지 관련성과 다양성은 작업 비능동성 방법보다 더 나은 데이터 효율성을 가능하게 하여 불필요한 노이즈 장벽을 돌파한다.
적용 연구에서 전체 TADS 파이프라인은 ImageNet-1K에서 Top-1 40.7%로 최상의 성능을 보여주며, 품질, 관련성, 다양성, 수요 인식 최적화를 추가할 때 상당한 이득이 있다.
중복 제거(메타데이터, 의미적, 품질 유도)가 데이터 크기를 크게 줄이면서 다운스트림 정확도를 높인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.