[논문 리뷰] Multi-Residual Networks: Improving the Speed and Accuracy of Residual Networks
이 논문은 깊이를 늘리지 않고 블록당 잔차 함수의 수를 늘려 모델의 다중성과 성능을 향상시키는 더 넓은 아키텍처인 멀티리지드 네트워크(Multi-ResNet)를 제안한다. 모델 병렬 처리를 활용하고 앙상블 행동을 모방함으로써 Multi-ResNet은 계산 비용을 깊은 잔차 네트워크 대비 최대 15% 감소시키면서도 최신 기준 성능을 달성한다—CIFAR-10에서 3.73%의 상위-1 오차, CIFAR-100에서 19.45%의 오차를 기록한다.
In this article, we take one step toward understanding the learning behavior of deep residual networks, and supporting the observation that deep residual networks behave like ensembles. We propose a new convolutional neural network architecture which builds upon the success of residual networks by explicitly exploiting the interpretation of very deep networks as an ensemble. The proposed multi-residual network increases the number of residual functions in the residual blocks. Our architecture generates models that are wider, rather than deeper, which significantly improves accuracy. We show that our model achieves an error rate of 3.73% and 19.45% on CIFAR-10 and CIFAR-100 respectively, that outperforms almost all of the existing models. We also demonstrate that our model outperforms very deep residual networks by 0.22% (top-1 error) on the full ImageNet 2012 classification dataset. Additionally, inspired by the parallel structure of multi-residual networks, a model parallelism technique has been investigated. The model parallelism method distributes the computation of residual blocks among the processors, yielding up to 15% computational complexity improvement.
연구 동기 및 목표
- 잔차 경로의 지수적 다중성과 기울기 흐름 패턴을 바탕으로 깊은 잔차 네트워크가 얕은 네트워크의 앙상블처럼 행동하는지 조사하기 위해.
- 깊이를 늘리지 않고도 표준 깊은 잔차 네트워크를 초월해 분류 정확도와 계산 효율성을 향상시키기 위해.
- 더 넓고 얕은 아키텍처에서 학습을 가속화하기 위해 데이터 병렬 처리의 대안으로 모델 병렬 처리를 탐색하기 위해.
- 동일한 파라미터 수에서 깊이를 늘리는 것보다 잔차 함수의 다중성을 늘리는 것이 더 우수한 성능을 내는지 증명하기 위해.
제안 방법
- 입력에서 출력까지의 경로 수를 늘리기 위해 블록당 다수의 병렬 잔차 함수를 포함하는 멀티잔차 블록을 도입한다.
- 깊이가 고정되어 있지만 다중성이 높은 더 넓은 아키텍처로 네트워크를 구성하며, 더 깊은 레이어 수를 갖는 것보다 더 나은 성능을 내기 위해 설계한다.
- 각 멀티잔차 블록의 계산을 두 개의 GPU에 나누어 할당함으로써 모델 병렬 처리를 구현한다. 각 GPU에 반의 잔차 함수를 할당한다.
- 네 대의 K80 GPU에서 데이터 병렬 처리를 수행하면서 각 GPU의 두 개의 서브-GPU에서 내부 모델 병렬 처리를 결합한 하이브리드 병렬 전략을 사용한다.
- 표준 SGD를 사용하여 중간 수준의 데이터 증강(뒤집기/이동)을 적용하고, 깊은 잔차 네트워크 및 최신 기준 모델과의 성능를 비교한다.
- 기울기 업데이트와 경로 기여도를 분석하여 잔차 네트워크의 앙상블 유사 행동을 검증한다.
실험 결과
연구 질문
- RQ1깊은 잔차 네트워크가 지수적 수의 잔차 경로 덕분에 얕은 네트워크의 앙상블처럼 작동하는가?
- RQ2블록당 잔차 함수의 수를 늘리는 것이 네트워크 깊이를 늘리는 것보다 더 효과적으로 정확도를 향상시킬 수 있는가?
- RQ3더 깊은 네트워크에서 데이터 병렬 처리와 비교해 멀티잔차 블록에 모델 병렬 처리를 적용할 경우 계산 복잡도가 감소하는가?
- RQ4효율적 경로 범위와 다중성의 영향은 기울기 흐름과 최적화 안정성에 어떤가?
- RQ5동일한 합성곱 레이어 수를 가진 더 얕고 넓은 네트워크가 더 깊고 좁은 대안보다 성능이 뛰어나게 될 수 있는가?
주요 결과
- Multi-ResNet은 CIFAR-10에서 3.73%의 상위-1 오차, CIFAR-100에서 19.45%의 오차를 기록하여 대부분의 기존 모델, 심지어 더 깊은 잔차 네트워크를 능가한다.
- 블록당 두 개의 잔차 함수를 가진 101층의 Multi-ResNet은 ImageNet 2012에서 200층의 ResNet보다 상위-1 정확도가 0.22% 높다.
- 중간 수준의 데이터 증강을 적용한 결과, Identity 매핑을 사용한 잔차 네트워크 대비 CIFAR-10에서 오차가 6% 감소하고, CIFAR-100에서는 10% 감소한다.
- 인터 GPU 통신 오버헤드가 존재하더라도, 더 깊은 잔차 네트워크의 데이터 병렬 처리 대비 모델 병렬 처리가 계산 복잡도를 최대 15% 감소시킨다.
- 잔차 함수의 다중성 증가가 깊이 증가를 초월해 임계 깊이 n₀ 이후 성능 향상에 더 큰 기여를 하며, 이는 정확도에서 다중성이 깊이보다 더 중요하다는 것을 시사한다.
- 결과는 잔차 네트워크가 앙상블처럼 행동한다는 것을 지지한다. 한 레이어를 제거해도 영향이 미미하며, 대부분의 기울기 업데이트는 얕은 경로에서 유래한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.