QUICK REVIEW

[논문 리뷰] Learning From Noisy Large-Scale Datasets With Minimal Supervision

Andreas Veit, Neil Alldrin|arXiv (Cornell University)|2017. 01. 06.

Domain Adaptation and Few-Shot Learning참고 문헌 27인용 수 54

한 줄 요약

이 논문은 소량의 검증된 부분집합을 사용하여 노이즈가 많은 대규모 이미지 주석을 정리하고, 강건한 다중 라벨 분류기를 공동으로 학습하는 준지도 다중태스크 모델을 제시하며, Open Images에서의 직접 미세조정보다 우수한 성능을 보인다.

ABSTRACT

We present an approach to effectively use millions of images with noisy annotations in conjunction with a small subset of cleanly-annotated images to learn powerful image representations. One common approach to combine clean and noisy data is to first pre-train a network using the large noisy dataset and then fine-tune with the clean dataset. We show this approach does not fully leverage the information contained in the clean set. Thus, we demonstrate how to use the clean annotations to reduce the noise in the large dataset before fine-tuning the network using both the clean set and the full set with reduced noise. The approach comprises a multi-task network that jointly learns to clean noisy annotations and to accurately classify images. We evaluate our approach on the recently released Open Images dataset, containing ~9 million images, multiple annotations per image and over 6000 unique classes. For the small clean set of annotations we use a quarter of the validation set with ~40k images. Our results demonstrate that the proposed approach clearly outperforms direct fine-tuning across all major categories of classes in the Open Image dataset. Further, our approach is particularly effective for a large number of classes with wide range of noise in annotations (20-80% false positive annotations).

연구 동기 및 목표

Most annotations are noisy or weakly supervised일 때 강건한 다중 라벨 분류기 학습의 동기를 부여한다.
소음이 있는 레이블을 이미지 특징에 조건부로 정리된 라벨로 매핑하는 레이블 클리닝 네트워크를 제안한다.
노이즈가 있는 주석과 깨끗한 주석을 모두 활용하기 위해 레이블 클리닝과 이미지 분류를 공동으로 최적화한다.
대규모의 노이즈가 많은 데이터셋에서 전통적인 미세조정보다 향상된 성능을 입증한다.

제안 방법

레이블 클리닝 네트워크 g와 이미지 분류기 h가 시각적 특징을 공유하는 다중태스크 아키텍처를 도입한다.
g를 노이즈가 있는 레이블 y에서 정리된 레이블 c_hat으로의 잔차 매핑으로 모델링하며 이미지 특징 f(I)에 조건부로 동작한다.
노이즈를 제거한 레이블을 작은 검증 세트 V의 라벨 v로 예측하도록 g를 학습시키며, L_clean = sum_i |c_hat_i − v_i|로 정의한다.
h를 c_hat(T) 또는 v(V)을 타깃으로 사용하여 이미지 라벨을 예측하도록 학습시키며 교차 엔트로피로 L_classify를 정의한다.
손실을 L_clean 가중치 0.1, L_classify 가중치 1.0으로 조정하고 배치 구성은 9:1(T:V)이다.
다중레이블 분류를 위한 잔차 백본으로 Inception-v3를 사용하고 최종 계층은 6012-way 시그모이드로 구성한다.

실험 결과

연구 질문

RQ1노이즈가 많은 대규모 데이터셋에서 소량의 검증된 세트로 학습된 깨끗한 라벨 매핑이 다중 레이블 분류의 노이즈를 줄일 수 있는가?
RQ2레이블 클리닝과 이미지 분류를 공동으로 학습하는 것이 깨끗한 라벨에 대한 직접 미세조정이나 혼합 라벨 미세조정보다 성능이 우수한가?
RQ3제안된 방법이 대규모 데이터셋의 라벨 빈도와 주석 품질에 따라 어떻게 성능을 발휘하는가?
RQ4성능과 실용성 측면에서 클리닝 네트워크의 사전 학습과 공동 학습의 영향은 무엇인가?

주요 결과

모델	AP_all	MAP
Baseline	83.82	61.82
Misra et al. (visual classifier)	83.55	61.85
Misra et al. (relevance classifier)	83.79	61.89
Fine-Tuning with mixed labels	84.80	61.90
Fine-Tuning with clean labels	85.88	61.53
Our Approach with pre-training	87.68	62.36
Our Approach trained jointly	87.67	62.38

제안된 접근 방식은 주요 Open Images 카테고리 및 전체 지표에서 직접 미세조정보다 우수한 성능을 보인다.
공동 학습으로 평균 정확도(MAP)가 62.38로 향상되며 기준선 61.82에서 상승(사전 학습 시 최대 62.36까지 가능).
깨끗한 라벨만으로 미세조정하는 경우 과적합으로 MAP이 감소할 수 있는 반면, 본 방법은 일반적 및 희귀 클래스에서 이득을 유지한다.
40%~80%의 오도 주석을 가진 클래스에서 더 큰 이익이 발생하며 노이즈 있는 라벨에 대한 강건성을 보여준다.
고수준 카테고리(차량, 제품, 예술, 사람, 스포츠, 음식, 동물, 식물) 전반에 걸친 성능 향상이 일관되게 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.