[논문 리뷰] CleanNet: Transfer Learning for Scalable Image Classifier Training with Label Noise
CleanNet는 소수의 수동으로 확인된 클래스에서 클래스 프로토타입을 학습함으로써 레이블 노이즈 탐지 및 이미지 분류 작업에서 인간의 supervision을 줄이는 전이학습 프레임워크를 제안한다. 클래스 참조와 쿼리 이미지를 함께 임bedding하는 신경망을 공동으로 훈련시켜, 노이즈 탐지 지식을 클래스 간으로 전이함으로써, 이미지 분류 작업에서 전체 인간 검증 성능의 47%를 달성하면서도 레이블이 부여된 이미지의 비율을 3.2%로 줄였다.
In this paper, we study the problem of learning image classification models with label noise. Existing approaches depending on human supervision are generally not scalable as manually identifying correct or incorrect labels is time-consuming, whereas approaches not relying on human supervision are scalable but less effective. To reduce the amount of human supervision for label noise cleaning, we introduce CleanNet, a joint neural embedding network, which only requires a fraction of the classes being manually verified to provide the knowledge of label noise that can be transferred to other classes. We further integrate CleanNet and conventional convolutional neural network classifier into one framework for image classification learning. We demonstrate the effectiveness of the proposed algorithm on both of the label noise detection task and the image classification on noisy data task on several large-scale datasets. Experimental results show that CleanNet can reduce label noise detection error rate on held-out classes where no human supervision available by 41.5% compared to current weakly supervised methods. It also achieves 47% of the performance gain of verifying all images with only 3.2% images verified on an image classification task. Source code and dataset will be available at kuanghuei.github.io/CleanNetProject.
연구 동기 및 목표
- 광범위한 인간 레이블링에 의존하는 것을 줄임으로써 레이블 노이즈 탐지에서의 확장성과 정확성 간의 트레이드오프 문제를 해결하기 위해.
- 소수의 수동으로 확인된 클래스에서 유래한 지식을 확인되지 않은 클래스로 전이하여 효과적인 레이블 노이즈 탐지 방법을 개발하기 위해.
- 레이블 노이즈 탐지와 이미지 분류기 훈련을 통합된, 엔드 투 엔드로 미분 가능한 프레임워크로 통합하기 위해.
- 대규모 이미지 분류 작업에서 전체 supervision 수준에 가까운 성능을 달성하기 위해 소수의 인간 검증 레이블만으로도 성능을 낼 수 있음을 입증하기 위해.
제안 방법
- CleanNet는 주어진 클래스에 대해 레이블링된 참조 이미지 세트에서 클래스 임베딩 벡터를 생성하기 위해 주로 어텐션 기반의 참조 세트 인코더를 사용한다.
- 각 개별 이미지의 쿼리 임베딩을 학습하고, 이미지가 정확하게 레이블링된 경우 쿼리 임베딩과 클래스 임베딩 간의 유사도 일치 조건을 강제로 적용한다.
- 모델은 검증된 클래스에서 유래한 노이즈 탐지 지식을 확인되지 않은 클래스로 일반화하기 위해 전이학습을 활용하여, 새로운 클래스에 대해 인간 supervision 없이 추론을 가능하게 한다.
- 이미지-레이블 관련도 점수 기반 소프트 가중치 부여 방식을 사용하여 분류기 훈련 중에 학습 샘플을 재가중한다.
- CleanNet와 컨volution 신경망 분류기를 함께 훈련하며, 업데이트된 분류기의 특징을 활용해 CleanNet를 반복적으로 개선한다.
- 클래스 임베딩 및 쿼리 임베딩 구성 요소 모두를 통해 역전파가 가능한 미분 가능한 아키텍처를 사용한다.
실험 결과
연구 질문
- RQ1소수의 수동으로 확인된 레이블을 사용하여, 확인되지 않은 클래스 전반에 걸쳐 레이블 노이즈를 탐지할 수 있는 모델을 훈련시킬 수 있는가?
- RQ2전이학습이 레이블 노이즈 탐지 및 이미지 분류에서 인간 supervision의 필요성을 얼마나 줄일 수 있는가?
- RQ3CleanNet가 레이블의 일부만을 사용함으로써 전체 인간 검증 성능에 얼마나 가까운 성능을 달성할 수 있는가?
- RQ4표준 CNN과 CleanNet를 통합함으로써 대규모 데이터셋에서 레이블 노이즈에 대한 강건성을 향상시킬 수 있는가?
주요 결과
- CleanNet는 검증되지 않은 클래스에 대해 인간 supervision이 전혀 제공되지 않은 상황에서도, 약한 supervision 기반의 기준 모델 대비 레이블 노이즈 탐지 오류율을 41.5% 감소시켰다.
- Clothing1M 데이터셋에서, 레이블이 부여된 이미지의 비율이 3.2%에 불과한 상황에서도 100만 개의 노이즈가 섞인 훈련 이미지에서 74.69%의 top-1 정확도를 달성하였으며, 이는 전체 검증 성능의 47%에 해당한다.
- WebVision에서 레이블이 부여된 이미지의 비율이 3.2%에 불과했을 때(308개 클래스), 모든 이미지를 검증했을 경우의 성능 향상의 47%를 달성하여 강력한 전이 가능성과 성능을 입증하였다.
- 무작위로 선택된 118개 클래스(전체 이미지의 1.2%)만을 검증했을 때, WebVision에서 전체 검증 성능 향상의 29%를 달성하였다.
- 레이블 혼동 정보를 사용하지 않았음에도 불구하고, [20]과 같은 최신 기술(80.38% top-1 정확도)과 유사한 성능을 달성하였다.
- CleanNet와 이미지 분류기를 함께 최적화하는 통합 훈련 방식은 Food-101N, Clothing1M, WebVision 등 테스트한 모든 데이터셋에서 일관된 성능 향상을 이끌어냈다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.