QUICK REVIEW

[논문 리뷰] Selection via Proxy: Efficient Data Selection for Deep Learning

Cody Coleman, Christopher Yeh|arXiv (Cornell University)|2019. 06. 26.

Machine Learning and Algorithms참고 문헌 54인용 수 76

한 줄 요약

Selection via Proxy (SVP) 은 작은 빠른 프록시 모델을 사용하여 데이터 선택을 수행하고, active learning 및 core-set selection에서 딥러닝의 최종 정확도 손실을 최소화하며 큰 속도 향상을 달성한다. 여러 데이터셋에서 이를 입증한다.

ABSTRACT

Data selection methods, such as active learning and core-set selection, are useful tools for machine learning on large datasets. However, they can be prohibitively expensive to apply in deep learning because they depend on feature representations that need to be learned. In this work, we show that we can greatly improve the computational efficiency by using a small proxy model to perform data selection (e.g., selecting data points to label for active learning). By removing hidden layers from the target model, using smaller architectures, and training for fewer epochs, we create proxies that are an order of magnitude faster to train. Although these small proxy models have higher error rates, we find that they empirically provide useful signals for data selection. We evaluate this "selection via proxy" (SVP) approach on several data selection tasks across five datasets: CIFAR10, CIFAR100, ImageNet, Amazon Review Polarity, and Amazon Review Full. For active learning, applying SVP can give an order of magnitude improvement in data selection runtime (i.e., the time it takes to repeatedly train and select points) without significantly increasing the final error (often within 0.1%). For core-set selection on CIFAR10, proxies that are over 10x faster to train than their larger, more accurate targets can remove up to 50% of the data without harming the final accuracy of the target, leading to a 1.6x end-to-end training time improvement.

연구 동기 및 목표

딥러닝을 위한 데이터 선택 방법(능동 학습 및 코어 세트 선택)을 동기 부여하고 이들의 높은 계산 비용을 다룬다.
선택을 위해 비용이 큰 타깃 모델 표현을 더 저렴한 프록시 표현으로 대체하기 위한 SVP를 제안한다.
프록시 기반 선택이 여러 데이터셋에 대해 최종 정확도를 상당히 보존하면서 데이터 선택 시간을 크게 줄임을 입증한다.
프록시와 타깃 모델 간의 순위 상관관계에 대한 경험적 증거를 보여 선택 프로세스에서 프록시를 사용하는 것을 정당화한다.

제안 방법

타깃의 의사결정 경계를 근접시키기 위해 깊이/너비를 축소하거나 더 적은 에포크로 학습하여 저렴한 프록시 모델을 만든다.
선택 지표(불확실성, 거리 기반 다양성, 잊힘 사건)를 계산할 때 타깃 모델 표현을 프록시 표현으로 교체한다.
SVP를 두 가지 데이터 선택 패러다임에 적용한다: (i) 가장 낮은 확신도와 탐욕적 k-센터를 이용한 능동 학습, (ii) 잊힘 사건, 엔트로피, 탐욕적 k-센터를 이용한 코어세트 선택.
최종 테스트 오류에 대한 영향 평가를 위해 전체 데이터로 학습된 타깃과의 비교로 선택을 평가한다.
프록시와 타깃 랭킹 간의 상관관계(Spearman/Pearson)를 평가하여 프록시의 효과를 설명한다.
데이터셋으로 CIFAR-10/100, ImageNet, Amazon Review Polarity, Amazon Review Full을 사용하며 프록시와 타깃으로 ResNet 변형 및 텍스트 분류기 같은 모델을 사용한다.

실험 결과

연구 질문

RQ1작은 프록시 모델이 큰 타깃 모델에 비해 정보가-rich한 데이터를 선택하기 위한 신뢰할 수 있는 순위를 제공할 수 있는가?
RQ2능동 학습과 코어 세트 작업 전반에서 SVP가 달성할 수 있는 런타임상의 데이터 선택 속도 향상은 어느 정도인가?
RQ3프록시 기반 선택이 다양한 데이터셋과 모달리티에서 타깃 모델 기반 선택과 유사한 최종 테스트 정확도를 유지하는가?
RQ4프록시와 타깃 모델 간의 순위 신호(불확실성, 잊힘 사건, 엔트로피, k-센터)의 상관성은 얼마나 잘 나타나는가?
RQ5SVP가 이미지 분류를 넘어 다양한 아키텍처와 작업에 널리 적용 가능한가?

주요 결과

SVP는 Amazon Review Polarity 및 Full에서 데이터 선택 런타임을 최대 41.9배 가속했고 CIFAR-10/100에서 능동 학습 시 최대 7배의 속도 향상을 보였다.
SVP는 최종 정확도 손실을 거의 유의미하게 보전하지 못하며, 보통 기저 타깃 모델 선택 대비 0.1% 이내의 손실을 보여준다.
프록시를 사용한 코어세트 선택은 CIFAR-10 데이터의 최대 50%를 제거해도 ResNet164 정확도에 큰 하락이 없고 엔드-투-엔드 학습 속도를 약 1.6배 향상시킨다.
더 적은 에포크로 학습하거나 더 작은 아키텍처를 가진 프록시 모델은 불확실성, 잊힘 사건, k-센터의 예제 순위 측정에서 대규모 타깃 모델과 높은 상관관계를 보인다.
데이터셋과 아키텍처 전반에 걸쳐 프록시 순위가 대형 모델과 높은 Spearman 및 Pearson 상관관계를 보이며 SVP의 광범위한 적용 가능성을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.