[논문 리뷰] Understanding the Effective Receptive Field in Deep Convolutional Neural Networks
이 논문은 심층 CNN에서의 effective receptive field(ERF)를 정의하고 분석하며, ERF가 가우시안 분포를 따르고 이론적 수용영역의 일부만 차지한다는 것을 보여준다; 또한 아키텍처와 학습이 ERF에 미치는 영향을 검토하고 ERF를 확장하기 위한 전략을 제시한다.
We study characteristics of receptive fields of units in deep convolutional networks. The receptive field size is a crucial issue in many visual tasks, as the output must respond to large enough areas in the image to capture information about large objects. We introduce the notion of an effective receptive field, and show that it both has a Gaussian distribution and only occupies a fraction of the full theoretical receptive field. We analyze the effective receptive field in several architecture designs, and the effect of nonlinear activations, dropout, sub-sampling and skip connections on it. This leads to suggestions for ways to address its tendency to be too small.
연구 동기 및 목표
- 심층 CNN에서 수용영역 연구의 필요성과 밀도 예측 작업에서의 역할을 동기화한다.
- 효과적 수용영역(ERF)과 그 가우시안 분포를 정의하고 정량화한다.
- 네트워크 설계 선택(깊이, 커널 크기, 풀링, 건너뛰기 연결)과 학습 요인이 ERF에 어떤 영향을 미치는지 분석한다.
- ERF를 늘리기 위한 실용적 접근법을 제시한다. 초기화 스킴과 아키텍처 변경을 포함한다.
제안 방법
- ERF를 중심 출력 유닛에 비무시적이지 않은 영향을 주는 입력 픽셀의 영역으로 정의하고, 그 영향은 그래디언트 ∂y0,0/∂x0,i,j로 측정한다.
- 선형 네트워크를 분석하여 그래디언트가 어떻게 전파되고 층을 따라 가우시안 유사 분포를 형성하는지 보인다.
- 비선형 활성화, 드롭아웃, 서브샘플링, 확장(dilation), 건너뛰기 연결 등을 분산 전파 및 관련 근사치를 통해 확장한다.
- 학습 중 인공적으로 구성된 CNN과 실제 모델을 통해 단위 그래디언트를 역전파하여 ERF를 경험적으로 평가한다.
- ERF를 넓히기 위해 중심 가중치를 감소시키고 주변 가중치를 증가시키는 새로운 가중치 초기화를 제안하고, 확장된(dilated) 또는 희소한 연결과 같은 아키텍처 옵션을 논의한다.
실험 결과
연구 질문
- RQ1깊은 CNN에서 ERF의 모양과 범위는 어떠하며, 이론적 수용영야와 어떤 관련이 있는가?
- RQ2아키텍처 선택과 학습 방식이 ERF에 어떤 영향을 주며, 이를_effect적으로_ 확장하는 방법을 설계할 수 있는가?
- RQ3학습 중 ERF가 커지는가, 그리고 비선형성, 드롭아웃, 서브샘플링, 건너뛰기 연결이 그것에 어떤 영향을 미치는가?
- RQ4초기화 또는 아키텍처 변경이 ERF 분포를 시프트시켜 더 넓은 이미지 영역의 정보를 더 잘 포착하게 할 수 있는가?
주요 결과
- ERF는 가우시안 분포를 보이며 이론적 수용영역의 일부만을 차지한다.
- ERF 크기는 대략 층의 수의 제곱근에 비례해 커지며, 그것이 차지하는 RF의 비율은 1/√n로 감소하므로 네트워크가 깊어질수록 ERF가 RF에 비해 축소되는 것을 나타낸다.
- 서브샘플링과 확장된 합성곱(dilated convolutions) 확장은 ERF 크기를 키울 수 있지만, 건너뛰기 연결은 이를 감소시키는 경향이 있다.
- 비선형 활성화는 ERF를 대략 가우시안으로 유지하지만, 그 효과로 ERF가 완벽하게 가우시안하지 않게 만드는 경우가 있으며, 특히 ReLU에서 그렇다.
- 학습 중에 이론적 RF가 크더라도 분류 네트워크와 분할 네트워크 모두에서 ERF가 상당히 커질 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.