QUICK REVIEW

[논문 리뷰] Tensor Normalization and Full Distribution Training

Wolfgang Fuhl|arXiv (Cornell University)|2021. 09. 06.

Model Reduction and Neural Networks참고 문헌 102인용 수 31

한 줄 요약

ReLU 이후 픽셀 단위 텐서 정규화와 다중 분포 학습(FDT)을 도입하여 다중 클래스 태스크를 다중 라벨 문제로 재구성하고, 여러 데이터셋과 아키텍처에서 정확도와 강건성을 향상시킨다.

ABSTRACT

In this work, we introduce pixel wise tensor normalization, which is inserted after rectifier linear units and, together with batch normalization, provides a significant improvement in the accuracy of modern deep neural networks. In addition, this work deals with the robustness of networks. We show that the factorized superposition of images from the training set and the reformulation of the multi class problem into a multi-label problem yields significantly more robust networks. The reformulation and the adjustment of the multi class log loss also improves the results compared to the overlay with only one class as label. https://atreus.informatik.uni-tuebingen.de/seafile/d/8e2ab8c3fdd444e1a135/?p=%2FTNandFDT&mode=list

연구 동기 및 목표

활성화 뒤에 적용되는 파라미터 없는 픽셀 단위 텐서 정규화 계층을 도입하여 일반화 향상.
학습 이미지의 요인화된 겹침과 다중 라벨 손실 형태로 모델의 강건성 향상.
적응된 softmax 손실로 다중 클래스 분류를 다중 라벨 설정으로 재구성.
다양한 데이터셋과 네트워크 아키텍처에서 제안된 방법을 평가하여 강건성과 정확도 향상을 입증.
PGD를 사용한 적대적 유사 perturbations에서의 강건성 평가 및 함의 분석

제안 방법

2D 텐서 정규화(TN) 제안: 깊이 Z를 따라 (x,y)별 평균을 계산하고 이를 활성화 텐서에서 빼는 방식.
정규화는 ReLU 이후 온라인으로 수행되며 추가 메모리 부담 없이 그라디언트가 뺄셈을 통해 역전파된다.
클 수 있는 다중 라벨 예제로 여러 이미지를 구성하는 Full Distribution Training(FDT) 도입: 하모닉 시퀀스 기반 가중치 체계와 클래스의 임의 선택 사용.
예측에 softmax를 적용하고 GT를 사용해 관련 모든 라벨의 그래디언트를 계산하는 다중 라벨 설정으로 크로스 엔트로피 손실을 적응(Algorithm 4).
다중 라벨 입력(Eq. 2–4) 구성 알고리즘과 다중 라벨 손실 계산(Alg. 4)을 제시하여 견고한 학습 정당화.
PGD 공격을 통한 강건성 평가 및 baseline, overlaid (OV), TN+FDT 구성과의 비교

실험 결과

연구 질문

RQ1ReLU 이후 픽셀 단위 텐서 정규화가 일반 비전 데이터셋에서 일반화를 향상시키는가?
RQ2추가 학습 시간이나 매개변수 없이 FDT가 적대적 유사 perturbations에 대한 강건성을 증가시키는가?
RQ3다중 클래스 분류를 다중 라벨 문제로 재구성하는 것이 표준 크로스 엔트로피 손실과 비교해 정확도와 강건성에 어떤 영향을 미치는가?
RQ4PGD 공격 하에서 다양한 아키텍처와 데이터셋에 대해 TN과 FDT의 결합 효과는 무엇인가?

주요 결과

텐서 정규화(TN)는 여러 데이터셋에서 강건성과 정확도 측면에서 다른 조합을 능가한다.
전체 분포 학습(FDT)은 PGD 공격에 대한 강건성을 증가시키며 TN과 결합될 때 두드러진 이점을 보인다.
SVHN에서 FDT는 데이터에 이미 존재하는 다중 라벨 그래디언트로 인해 강건성 개선이 덜 나타나며 데이터셋 의존적 효과를 시사한다.
TN과 FDT 조합은 CIFAR-10, CIFAR-100, Fashion-MNIST, SVHN에서 작은 ResNet-34와 더 큰 모델에서 강력한 성능 향상을 보인다.
TN과 FDT가 효과적이려면 추가 매개변수나 학습 시간이 필요 없다고 보이며, 다만 TN은 정규화 단계에서 약간의 연산을 추가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.