Skip to main content
QUICK REVIEW

[논문 리뷰] APAC: Augmented PAttern Classification with Neural Networks

Ikuro Sato, Hiroki Nishimura|arXiv (Cornell University)|2015. 05. 13.
Advanced Neural Network Applications참고 문헌 19인용 수 108
한 줄 요약

이 논문은 데이터 증강을 통해 훈련된 신경망 분류기용 새로운 결정 규칙인 APAC (Augmented PAttern Classification)를 제안한다. 단일 프로퍼게이션 예측 대신, 테스트 샘플의 여러 증강된 버전에서의 소프트맥스 출력을 집계함으로써 일반화 성능을 크게 향상시킨다. 이는 상태최고 성능을 달성하며, MNIST에서 0.23%의 테스트 오차(비앙셈 결과 중 최고 수준)를 기록하고, 단일 다층퍼셉트론(Multilayer Perceptron)을 사용해 일부 CNN보다도 뛰어난 성능을 보였다.

ABSTRACT

Deep neural networks have been exhibiting splendid accuracies in many of visual pattern classification problems. Many of the state-of-the-art methods employ a technique known as data augmentation at the training stage. This paper addresses an issue of decision rule for classifiers trained with augmented data. Our method is named as APAC: the Augmented PAttern Classification, which is a way of classification using the optimal decision rule for augmented data learning. Discussion of methods of data augmentation is not our primary focus. We show clear evidences that APAC gives far better generalization performance than the traditional way of class prediction in several experiments. Our convolutional neural network model with APAC achieved a state-of-the-art accuracy on the MNIST dataset among non-ensemble classifiers. Even our multilayer perceptron model beats some of the convolutional models with recently invented stochastic regularization techniques on the CIFAR-10 dataset.

연구 동기 및 목표

  • 데이터 증강 훈련 후 사용되는 비최적의 결정 규칙 문제를 해결하기 위해.
  • 증강된 데이터에 대해 추론 시 예측 방식을 재고함으로써 일반화 성능을 향상시키기 위해.
  • 데이터 증강 하에서 최적의 결정을 내리기 위해서는 단일 샘플 추론이 아니라 가상의 샘플에 대한 기대값 최대화가 필요하다는 것을 보여주기 위해.
  • 간단한 모델인 MLP조차도 제안된 APAC 추론 규칙과 결합하면 높은 성능을 달성할 수 있음을 보여주기 위해.

제안 방법

  • APAC는 단일 테스트 입력의 여러 데이터 증강 버전에 대해 소프트맥스 확률의 곱을 계산한다.
  • 각 증강된 버전은 훈련 중에 사용된 동일한 변형 함수(예: 탄성 왜곡, 색상 이동)를 사용해 생성된다.
  • 최종 예측은 모든 증강 샘플을 통해 계산된 확률의 곱 중 가장 큰 값을 가진 클래스를 선택함으로써 이루어진다.
  • 이 방법은 변형 매개변수에 대한 손실 함수의 기대값을 근사함으로써 추론 과정을 훈련 목표와 일치시킨다.
  • 이 방법은 아키텍처 변경 없이 CNN 및 MLP 아키텍처 모두에 적용되며, 오직 추론 단계만 수정된다.
  • 확률의 곱(합이 아닌) 사용은 증강된 인스턴스들 간의 클래스 예측에 대한 동시 가능도를 최대화하기 위해 정당화된다.

실험 결과

연구 질문

  • RQ1모델이 데이터 증강을 통해 훈련된 후, 단일 프로퍼게이션 추론을 사용할 경우 성능이 비최적화되는가?
  • RQ2아키텍처 변경 없이 추론 시 결정 규칙을 개선함으로써 일반화 성능을 크게 향상시킬 수 있는가?
  • RQ3증강된 샘플들 간의 소프트맥스 출력 곱이 결정에 있어 합이나 최댓값보다 더 효과적인가?
  • RQ4제안된 APAC 추론 규칙을 사용할 경우, 간단한 MLP가 복잡한 CNN보다 뛰어난 성능을 낼 수 있는가?
  • RQ5APAC는 네트워크 가중치에 저장된 특징 표현에 어떤 영향을 미치는가?

주요 결과

  • APAC는 MNIST 데이터셋에서 0.23%의 테스트 오차율을 기록하여 비앙셈 분류기 중 최고 성능을 달성했다.
  • MNIST에서 APAC를 사용한 상위 2개 예측 오차율은 단지 0.01%에 불과하여, 예측에 매우 높은 신뢰도를 보였다.
  • CIFAR-10에서 APAC를 사용한 MLP 모델은 고도로 정규화된 기술을 적용한 여러 CNN 모델보다 뛰어난 성능을 보였다.
  • APAC로 훈련된 모델의 가중치 맵은 특히 MLP에서 국소적 특징 민감도가 향상되어 있음을 보여주었으며, 이는 더 나은 불변성과 과적합 감소를 의미한다.
  • 모든 경우에서 소프트맥스 출력의 곱이 합보다 더 뛰어난 성능을 보였고, 유일한 예외는 CIFAR-10-MLP였다. 이는 동시 확률 최대화에 곱의 사용이 타당하다는 것을 뒷받침한다.
  • APAC는 국소적 특징 추출을 위한 설계가 되어 있지 않은 아키텍처(예: 표준 MLP)에서도 일반화 성능을 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.