QUICK REVIEW

[논문 리뷰] Regularizing Deep Networks with Semantic Data Augmentation

Yulin Wang, Gao Huang|arXiv (Cornell University)|2020. 07. 21.

Advanced Neural Network Applications참고 문헌 84인용 수 23

한 줄 요약

이 논문은 깊이 있는 특징 공간에서 의미적 변환을 통해 훈련 데이터를 암묵적으로 증강함으로써 딥 네트워크를 정규화하는 매우 효율적인 방법인 암묵적 의미적 데이터 증강(ISDA)을 제안한다. 클래스 조건부 공분산 행렬에서 방향을 샘플링하고 증강을 강건한 교차 엔트로피 손실로 공식화함으로써, ISDA는 보조 모델을 훈련하거나 증강 샘플을 명시적으로 생성하지 않고도 ResNets, DenseNets 및 여러 데이터셋—CIFAR-10, CIFAR-100, SVHN, ImageNet, Cityscapes—에서 일반화 성능을 향상시킨다.

ABSTRACT

Data augmentation is widely known as a simple yet surprisingly effective technique for regularizing deep networks. Conventional data augmentation schemes, e.g., flipping, translation or rotation, are low-level, data-independent and class-agnostic operations, leading to limited diversity for augmented samples. To this end, we propose a novel semantic data augmentation algorithm to complement traditional approaches. The proposed method is inspired by the intriguing property that deep networks are effective in learning linearized features, i.e., certain directions in the deep feature space correspond to meaningful semantic transformations, e.g., changing the background or view angle of an object. Based on this observation, translating training samples along many such directions in the feature space can effectively augment the dataset for more diversity. To implement this idea, we first introduce a sampling based method to obtain semantically meaningful directions efficiently. Then, an upper bound of the expected cross-entropy (CE) loss on the augmented training set is derived by assuming the number of augmented samples goes to infinity, yielding a highly efficient algorithm. In fact, we show that the proposed implicit semantic data augmentation (ISDA) algorithm amounts to minimizing a novel robust CE loss, which adds minimal extra computational cost to a normal training procedure. In addition to supervised learning, ISDA can be applied to semi-supervised learning tasks under the consistency regularization framework, where ISDA amounts to minimizing the upper bound of the expected KL-divergence between the augmented features and the original features. Although being simple, ISDA consistently improves the generalization performance of popular deep models (e.g., ResNets and DenseNets) on a variety of datasets, i.e., CIFAR-10, CIFAR-100, SVHN, ImageNet, and Cityscapes.

연구 동기 및 목표

회전이나 뒤집기와 같은 저수준의, 클래스에 관계없는 변환을 적용하는 전통적인 데이터 증강 기법의 한계를 해결하여 부족한 다양성을 해결한다.
각 클래스에 대해 생성 모델(예: GAN)을 훈련하는 데 의존하는 기존 의미적 증강 기법의 높은 계산 비용과 복잡성을 해결한다.
딥 테이터 공간 내 선형화된 의미적 방향을 활용하여 의미 있는 의미적 데이터 증강을 암묵적으로 수행하는 방법을 개발한다.
네트워크 아키텍처를 수정하거나 추가 추론 단계를 요구하지 않고도 표준 훈련 파이프라인에 효율적으로 통합할 수 있도록 한다.
일致성 정규화 프레임워크 하에서 반감독 학습으로의 확장 가능성을 고려하여, 최소한의 오버헤드로 강건성과 성능을 향상시킨다.

제안 방법

클래스 조건부 공분산 행렬을 동적으로 추정하여 평균이 0인 정규 분포에서 임의의 벡터를 샘플링하여 깊이 있는 특징 공간 내 의미적으로 유의미한 방향을 식별한다.
증강된 데이터셋에 대한 기대 교차 엔트로피 손실을 상한으로 공식화하고, 이를 훈련 중에 암묵적으로 최소화함으로써 명시적인 데이터 생성을 피한다.
증강 샘플에 대한 기대 손실의 상한을 이용해 모델을 암묵적으로 정규화하는 새로운 강건한 교차 엔트로피 손실 함수를 유도한다.
각 클래스의 특징 공분산 행렬을 사용하여 의미적 방향을 샘플링함으로써, 객체 텍스처나 배경의 변화와 같은 클래스 특화된 의미적 변형을 포착한다.
손실 함수를 수정함으로써 ISDA를 지도 및 반감독 학습에 통합하며, 보조 네트워크나 명시적 데이터 생성이 필요로 하지 않는다.
플러그 앤 플레이 방식으로 적용 가능: 소프트맥스 교차 엔트로피 손실을 사용하는 모든 딥 네트워크와 호환되며, 단지 작은 하이퍼파라미터 조정만 필요하다.

실험 결과

연구 질문

RQ1보조 생성 모델을 훈련하거나 추론하지 않고도 효과적인 의미적 데이터 증강을 달성할 수 있는가?
RQ2명시적인 생성 없이 특징 통계만을 사용하여 깊이 있는 특징 공간 내 의미적 변환을 암묵적으로 시뮬레이션할 수 있는가?
RQ3클래스 조건부 공분산 행렬을 사용할 경우, 무작위 또는 전역 공분산 샘플링보다 더 의미 있고 효과적인 의미적 방향을 도출할 수 있는가?
RQ4작은 샘플 수에서의 명시적 증강과 비교했을 때, 암묵적 의미적 증강은 일반화 및 강건성 측면에서 어떻게 성능을 내는가?
RQ5ISDA는 일치성 정규화 프레임워크 하에서 반감독 학습으로 효과적으로 확장될 수 있으며, 최소한의 계산 비용으로 성능 향상을 이룰 수 있는가?

주요 결과

ISDA는 CIFAR-10, CIFAR-100, SVHN, ImageNet, Cityscapes에서 최고 성능을 기록하며, ResNets와 DenseNets 전반에서 일반화 성능을 일관되게 향상시킨다.
Wide-ResNet-28-10를 사용한 CIFAR-100에서 ISDA는 테스트 오차를 16.95% ± 0.11%로 줄여 기준 모델 대비 1.63%p 향상시켰다.
제거 실험 결과, 대각 또는 항등 공분산 행렬을 사용할 경우 성능 저하가 발생하고, 단일 전역 공분산 행렬을 사용할 경우 일반화 성능이 떨어짐을 확인하여 클래스 조건부 통계의 중요성을 입증한다.
λ₀ = 0.5일 때 ISDA는 여러 데이터셋과 설정에서 강건한 성능을 기록하며, 최적 성능는 0.25 ≤ λ₀ ≤ 1 범위 내에서 달성된다.
작은 M(M=1,2,5)으로 명시적 의미적 데이터 증강을 수행할 경우 특징 공간 추정이 열악하여 성능이 열악한 편이지만, M이 증가함에 따라 ISDA 성능에 수렴함을 확인하였다(M → ∞).
반감독 학습에서 ISDA와 VAT를 조합하면 4,000개의 레이블만으로도 CIFAR-10에서 오차를 감소시켜, 낮은 데이터 환경에서의 효과성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.