QUICK REVIEW

[논문 리뷰] LSUN: Construction of a Large-scale Image Dataset using Deep Learning with Humans in the Loop

Fisher Yu, Ari Seff|arXiv (Cornell University)|2015. 06. 10.

Domain Adaptation and Few-Shot Learning참고 문헌 24인용 수 1,368

한 줄 요약

이 논문은 인간-기계 협업 딥러닝 파이프라인을 통해 반복적으로 이미지 선택, 레이블링, annotation 전파를 수행하여, 카테고리당 약 100만 개의 레이블이 부여된 대규모 이미지 데이터셋인 LSUN을 제안한다. 이 방법은 90% 이상의 레이블 정밀도를 달성하며, 시각 인식 성능 향상에 기여하여, ImageNet 사전학습 대비 벤치마크 테스트에서 최대 22.37%의 오차 감소를 이룬다.

ABSTRACT

While there has been remarkable progress in the performance of visual recognition algorithms, the state-of-the-art models tend to be exceptionally data-hungry. Large labeled training datasets, expensive and tedious to produce, are required to optimize millions of parameters in deep network models. Lagging behind the growth in model capacity, the available datasets are quickly becoming outdated in terms of size and density. To circumvent this bottleneck, we propose to amplify human effort through a partially automated labeling scheme, leveraging deep learning with humans in the loop. Starting from a large set of candidate images for each category, we iteratively sample a subset, ask people to label them, classify the others with a trained model, split the set into positives, negatives, and unlabeled based on the classification confidence, and then iterate with the unlabeled set. To assess the effectiveness of this cascading procedure and enable further progress in visual recognition research, we construct a new image dataset, LSUN. It contains around one million labeled images for each of 10 scene categories and 20 object categories. We experiment with training popular convolutional networks and find that they achieve substantial performance gains when trained on this dataset.

연구 동기 및 목표

기존 벤치마크인 ImageNet과 Places보다 더 밀도 높고 대규모인 훈련 데이터셋을 제공함으로써 딥러닝 모델의 증가하는 데이터 요구량을 해결하고자 한다.
인간 피드백을 통한 계단식 활성 학습 프레임워크를 활용해 레이블 전파를 자동화하여 수동 레이블링의 한계를 줄이고자 한다.
높은 카테고리 밀도를 가진 더 큰, 더 노이즈가 많은 데이터셋에서 학습할 경우 모델의 일반화 능력과 성능 향상 여부를 평가하고자 한다.
향후 대규모 시각 인식 분야의 발전을 지원하기 위해 자유롭게 이용할 수 있고 확장 가능한 이미지 데이터셋을 구축하고 공개하고자 한다.

제안 방법

카테고리당 10^7~10^8개의 후보 이미지를 키워드 기반 웹 크롤링을 통해 수집하여 초기 풀을 확보한다.
소규모 이미지 집합을 선별해 인간이 레이블링하고, 이를 기반으로 분류기 모델을 훈련시킨다.
훈련된 분류기를 사용해 나머지 이미지에 대해 레이블과 신뢰도를 예측한 후, 신뢰도 임계값 기반으로 필터링을 수행한다.
데이터셋을 양성, 음성, 미레이블링된 세트로 분할하고, 미레이블링된 세트에 대해 반복적으로 프로세스를 수행하여 커버리지와 품질을 향상시킨다.
통계적 검증을 통해 레이블 품질을 확인하고 최종 데이터셋의 정밀도를 90% 이상 유지한다.
최종 데이터셋을 사용해 표준 벤치마크에서 평가하기 위해 딥 컨volution 네트워크를 사전학습 및 미세조정한다.

실험 결과

연구 질문

RQ1인간-기계 협업 딥러닝 파이프라인은 밀도 높은 대규모 이미지 데이터셋의 생성을 효과적으로 확장시킬 수 있는가?
RQ2LSUN처럼 더 크고 카테고리 밀도가 높은 데이터셋에서 학습할 경우, ImageNet처럼 더 작고 다양성이 높은 데이터셋에서 학습하는 것보다 성능 향상이 이루어지는가?
RQ3큰 데이터셋에서의 레이블 노이즈가 더 작은, 더 깨끗한 데이터셋에 비해 모델의 일반화에 어떤 영향을 미치는가?
RQ4LSUN에서의 표현 학습은 ImageNet 사전학습 대비 특징 품질과 모델 성능 측면에서 어떻게 비교되는가?

주요 결과

PLACES와 LSUN에서 모두 AlexNet을 미세조정한 결과, 단지 PLACES에서만 학습한 경우 대비 PLACES 테스트 세트에서 분류 오차가 22.37% 감소했다.
PASCAL VOC 2012에서 LSUN으로 사전학습한 모델은 ImageNet으로 사전학습한 모델보다 성능이 뛰어나, AlexNet의 mAP는 9% 향상되었고 VGG의 mAP는 6% 향상되었다.
LSUN 데이터에서 학습한 첫 번째 레이어 필터는 ImageNet에서 학습한 필터보다 더 시각적으로 깔끔하고 노이즈가 적어, 더 나은 특징 학습을 의미한다.
일부 레이블 노이즈가 포함되어 있음에도 불구하고, 더 작은, 더 깨끗한 데이터셋보다 LSUN 데이터셋에서 학습한 모델가 더 뛰어난 성능을 보였으며, 이는 데이터 밀도가 모델 성능에 미치는 영향가 더 크다는 것을 시사한다.
인간-기계 협업 파이프라인은 90% 이상의 레이블 정밀도를 달성하여, 품질을 희생시키지 않으면서도 인간 레이블링의 효율성을 크게 증대시킬 수 있음을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.