QUICK REVIEW

[논문 리뷰] Places205-VGGNet Models for Scene Recognition

Limin Wang, Sheng Guo|arXiv (Cornell University)|2015. 08. 07.

Advanced Neural Network Applications참고 문헌 12인용 수 133

한 줄 요약

이 논문은 대규모 Places205 환경 데이터셋을 기반으로 다중 GPU Caffe 확장 기능을 사용해 훈련한 Places205-VGGNet 모델—VGGNet-11, -13, 및 -16—을 제시한다. 이 모델들은 Places205, MIT67, 그리고 SUN397 벤치마크에서 최신 기술 성능을 달성하였으며, Places205에서 상위-1 정확도 60.6%와 MIT67에서 82.0%를 기록하였다. 연구의 발전을 위해 공개된 모델이다.

ABSTRACT

VGGNets have turned out to be effective for object recognition in still images. However, it is unable to yield good performance by directly adapting the VGGNet models trained on the ImageNet dataset for scene recognition. This report describes our implementation of training the VGGNets on the large-scale Places205 dataset. Specifically, we train three VGGNet models, namely VGGNet-11, VGGNet-13, and VGGNet-16, by using a Multi-GPU extension of Caffe toolbox with high computational efficiency. We verify the performance of trained Places205-VGGNet models on three datasets: MIT67, SUN397, and Places205. Our trained models achieve the state-of-the-art performance on these datasets and are made public available.

연구 동기 및 목표

이미지넷 사전 훈련된 VGGNets가 환경 인식 작업에서 낮은 성능을 보이는 문제를 해결하기 위해.
더 나은 환경 이해를 위해 VGGNet-11, -13, -16 아키텍처를 Places205 데이터셋에 특화해 훈련하기 위해.
대규모 환경 데이터셋을 위한 고성능 훈련 파이프라인을 다중 GPU Caffe를 활용해 개발하기 위해.
MIT67 및 SUN397와 같은 전이 학습 벤치마크에서 훈련된 특징의 일반화 성능을 평가하기 위해.
미리 훈련된 모델을 공개하여 향후 환경 인식 연구의 진전을 가속화하기 위해.

제안 방법

고성능 계산을 위해 Caffe의 다중 GPU 확장 기능을 사용해 Places205 데이터셋에 VGGNet-11, -13, -16 아키텍처를 훈련시키기 위해.
더 깊은 네트워크(VGGNet-13 및 -16)를 사전 훈련된 VGGNet-11 가중치로 초기화하여 수렴성과 성능을 향상시키기 위해.
일반화 성능 향상을 위해 다중 크기 컷팅 및 코너 컷팅 데이터 증강 기법을 적용하기 위해.
오버피팅을 줄이기 위해 배치 크기 256, 모멘타임 0.9, 가중치 감쇠(L2 페널티 = 0.0005), 완전 연결층에 드롭아웃 비율 0.5를 사용한 미니배치 경사하강법을 사용하기 위해.
입력 이미지를 256×256로 리사이징하고, 다양한 스케일과 위치에서 224×224로 무작위 컷팅하며, 데이터 증강을 위해 수평 뒤집기를 적용하기 위해.
추론 시 다중 시각 분류를 활용: 각 이미지당 10개의 컷(네 모서리, 중심, 수평 뒤집기)을 취하고, 최종 예측은 10개 점수의 평균으로 결정하기 위해.

실험 결과

연구 질문

RQ1Places205 데이터셋에 맞춰 미세조정된 VGGNet 아키텍처가 환경 인식 작업에서 이미지넷 사전 훈련된 모델보다 뛰어난 성능을 낼 수 있는가?
RQ2Places205 데이터셋에 훈련된 VGGNet-11, -13, -16의 성능는 환경 인식 작업에서 어떻게 변화하는가?
RQ3Places205에서 학습된 특징들이 MIT67 및 SUN397와 같은 다른 환경 인식 벤치마크로 일반화되는 정도는 어느 정도인가?
RQ4대규모 환경 데이터셋에 대해 깊은 VGGNets를 훈련시키는 데 가장 효과적인 훈련 기법과 데이터 증강 전략는 무엇인가?
RQ5Places205에서 훈련된 사전 훈련된 VGGNet 모델을 공개함으로써 환경 인식 연구의 진전이 가속화될 수 있는가?

주요 결과

Places205-VGGNet-16 모델은 Places205 검증 세트에서 상위-1 정확도 60.6%와 상위-5 정확도 88.5%를 기록하여 AlexNet, GoogLeNet, CNDS-8를 모두 능가했다.
MIT67 벤치마크에서 Places205-VGGNet-11 모델은 상위-1 정확도 82.0%를 기록하여 이전 공개 모델들, 특히 ImageNet-VGGNet-16(67.7%)를 모두 초월했다.
SUN397 데이터셋에서 Places205-VGGNet-16 모델은 상위-1 정확도 66.9%를 기록하여 비교된 모든 모델 중에서 가장 높은 성능를 보였다.
MIT67 및 SUN397 양쪽 모두에서 Places205-VGGNet 특징의 전이 성능는 Places205-AlexNet, -GoogLeNet, -CNDS-8와 같은 다른 모델보다 끊임없이 뛰어났다.
VGGNet-16 훈련 과정은 네 대의 GTX Titan-X GPU를 사용해 약 두 주가 소요되었으며, 다중 GPU Caffe 확장 기능을 통한 대규모 훈련의 가능성을 입증했다.
저자들은 연구의 후속 지원을 위해 GitHub에 훈련된 모델을 공개하여, 즉시 사용 가능한 특징 추출 및 환경 인식 작업의 전이 학습을 가능하게 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.