[논문 리뷰] Towards Stabilizing Batch Statistics in Backward Propagation of Batch Normalization
이 논문은 이동 평균 배치 정규화(MABN)를 제안하며, 이는 역전파 동안 배치 통계를 이동 평균으로 대체하여 배치 통계의 안정성을 높임으로써, 추론 시 비선형 연산을 추가하지 않고도 보편적 배치 정규화(vanilla Batch Normalization)의 전체 성능을 소규모 배치 설정에서 복원할 수 있도록 한다. MABN은 배치 크기가 1 또는 2일 때조차도 표준 BN과 동등한 성능을 달성하며, COCO와 ImageNet에서 SyncBN과 유사한 성능을 보이며 추론 효율성도 유지한다.
Batch Normalization (BN) is one of the most widely used techniques in Deep Learning field. But its performance can awfully degrade with insufficient batch size. This weakness limits the usage of BN on many computer vision tasks like detection or segmentation, where batch size is usually small due to the constraint of memory consumption. Therefore many modified normalization techniques have been proposed, which either fail to restore the performance of BN completely, or have to introduce additional nonlinear operations in inference procedure and increase huge consumption. In this paper, we reveal that there are two extra batch statistics involved in backward propagation of BN, on which has never been well discussed before. The extra batch statistics associated with gradients also can severely affect the training of deep neural network. Based on our analysis, we propose a novel normalization method, named Moving Average Batch Normalization (MABN). MABN can completely restore the performance of vanilla BN in small batch cases, without introducing any additional nonlinear operations in inference procedure. We prove the benefits of MABN by both theoretical analysis and experiments. Our experiments demonstrate the effectiveness of MABN in multiple computer vision tasks including ImageNet and COCO. The code has been released in https://github.com/megvii-model/MABN.
연구 동기 및 목표
- 메모리 제약으로 인해 배치 크기가 제한되는 검출 및 세그멘테이션과 같은 시각 작업에서 소규모 배치 학습에서 배치 정규화(BN)의 불안정성 문제를 해결하기 위해.
- BN의 역전파 과정에서 이전에 간과되었던 두 가지 배치 통계가 학습 불안정성에 기여하는 방식을 규명하고 분석하기 위해.
- 추론 시 비선형 연산을 추가하지 않고도 소규모 배치 환경에서 보편적 BN의 성능을 완전히 복원할 수 있는 정규화 방법을 개발하기 위해.
- 제안된 방법에 대한 이론적 근거와 여러 시각 벤치마크에서의 실증적 검증을 제공하기 위해.
제안 방법
- 이 방법은 전방전파에서의 지수 이동 평균 통계(EMAS)와 역전파에서의 스무딩 이동 평균 통계(SMAS)라는 두 가지 별도의 이동 평균 통계를 도입한다.
- EMAS는 런닝 통계의 모멘타움 기반 업데이트를 통해 전방전파에서 배치 통계를 대체하여 특징 정규화의 안정성을 높인다.
- SMAS는 역전파에서 배치 통계를 대체하여 기울기 계산의 안정성을 높이며, 학습 붕괴를 방지하기 위해 수정된 정규화 형태를 사용한다.
- 정규화 형태를 재구성하여 배치 통계의 수를 줄이고 컨볼루션 커널 가중치를 중심화함으로써 안정성을 향상시킨다.
- 소규모 배치로 학습할 때 발산을 방지하고 기울기 일致성을 유지하기 위해 재정규화 전략을 적용한다.
- 이동 통계에 대해 모멘타움 기반 업데이트 규칙을 사용하며, 안정성과 수렴성을 확보하기 위해 하이퍼파ram터를 조정한다.
실험 결과
연구 질문
- RQ1왜 배치 정규화는 대규모 배치 설정에서는 성공했지만 소규모 배치 학습에서는 실패하는가?
- RQ2배치 정규화의 역전파 과정에서 이전에 간과되었던 배치 통계는 무엇이며, 그것이 학습 안정성에 어떤 영향을 미치는가?
- RQ3추론 시 비선형 연산을 추가하지 않고도 보편적 배치 정규화의 성능을 소규모 배치 환경에서 완전히 복원할 수 있는가?
- RQ4이동 평균을 사용하여 전방전파와 역전파의 통계를 모두 안정화시키면서도, BN의 선형성을 유지하여 추론 효율성을 보존할 수 있는가?
주요 결과
- ResNet-50를 사용하여 배치 크기가 2인 조건에서 ImageNet에서 상위-1 검증 오차 23.58%를 기록하며, 더 큰 배치 크기에서 표준 BN의 성능과 동일한 성능을 달성한다.
- COCO 인스턴스 세그멘테이션에서 MABN은 AP^{bbox} 34.85와 AP^{mask} 31.61을 기록하여 SyncBN과 유사한 성능를 보이며, 보편적 BN과 BRN보다 뚜렷이 뛰어난 성능을 보였다.
- 제거 실험 결과, 전방전파에서의 EMAS와 역전파에서의 SMAS를 함께 사용하는 것이 필수적임을 확인하였으며, 둘 중 하나를 제거하면 성능이 크게 떨어졌다.
- MABN은 보편적 BN과 동일한 추론 속도를 유지하며, 비선형 연산으로 인해 추론 시간이 두 배로 증가하는 인스턴스 정규화 방법과는 달리 효율성을 유지한다.
- 배치 크기가 1인 조건에서도 MABN을 사용한 학습이 안정적으로 수렴하는 반면, 역전파에서 직접 이동 평균을 사용하면 기울기 불안정성으로 인해 실패한다.
- 이론적 분석 결과, MABN에서 사용하는 수정된 정규화 형태가 소규모 배치 환경에서 특히 더 안정적이며, 보편적 BN 형태보다 우수한 것으로 나타났다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.