[논문 리뷰] An Equivalence of Fully Connected Layer and Convolutional Layer
이 논문은 행렬 곱셈으로 표현할 때 완전히 연결된(FC) 및 컨볼루션(CONV) 레이어가 수학적으로 동일함을 보여주며, 이는 CONV 레이어를 분석을 위해 FC 레이어로 재구성할 수 있음을 의미한다. 주요 결과로는, FC 또는 CONV 레이어를 사용하는 등가 네트워크가 거의 동일한 훈련 및 검증 손실을 달성하며, 학습된 가중치 간의 프로베니우스 노름 차이가 2.12e-7임을 보여주어 특정 조건 하에서 그 기능적 동등성을 확인한다.
This article demonstrates that convolutional operation can be converted to matrix multiplication, which has the same calculation way with fully connected layer. The article is helpful for the beginners of the neural network to understand how fully connected layer and the convolutional layer work in the backend. To be concise and to make the article more readable, we only consider the linear case. It can be extended to the non-linear case easily through plugging in a non-linear encapsulation to the values like this $σ(x)$ denoted as $x^{\prime}$.
연구 동기 및 목표
- 딥 네ural 웹에서 완전히 연결된 레이어와 컨볼루션 레이어 간의 공식적 동등성을 수립하기 위해.
- 불확실성 측정 및 네트워크 모르포시즘과 같은 기존의 완전히 연결된 네트워크 기법을 활용해 컨볼루션 레이어를 분석할 수 있도록 하기 위해.
- CONV 연산을 효율적으로 행렬 곱셈으로 재구성할 수 있음을 보여주어 이론적 이해와 구현을 단순화하기 위해.
- MNIST에서 등가 FC 및 CONV 네트워크의 경험적 훈련을 통해 동일한 최적화 역학을 보임을 검증하기 위해.
- 완전히 연결된 네트워크에서 개발된 기법을 가중치 동등성에 기반해 컨볼루션 아키텍처로 이전할 수 있는 기반을 마련하기 위해.
제안 방법
- 입력 특징 맵과 필터를 행렬로 재형태화하여 2차원 컨볼루션 연산을 행렬 곱셈으로 재구성한다.
- 표준 행렬 곱셈을 사용해 컨볼루션 레이어의 출력을 계산하며, 각 커널 적용을 선형 변환으로 간주한다.
- 정확한 비교를 위해 FC 및 CONV 네트워크에 동일한 가중치 초기화 및 최적화(SGD 및 Adam)를 적용한다.
- 입력 데이터의 형태(1000, 28, 28, 1)를 (1000, 169, 16)으로 재형태화하여 FC 레이어의 입력 차원과 일치시키며, 동등성을 유지한다.
- 등가 CONV 및 FC 레이어의 학습된 가중치 간의 프로베니우스 노름을 계산하여 유사도를 정량화한다.
- 1000장의 이미지로 구성된 테스트 세트를 사용해 두 네트워크의 첫 번째 레이어 출력을 비교하여 기능적 동등성을 검증한다.
실험 결과
연구 질문
- RQ1컨볼루션 레이어는 행렬 곱셈을 통해 완전히 연결된 레이어로 정확히 재구성할 수 있는가?
- RQ2등가 FC 및 CONV 네트워크는 훈련 역학과 손실 곡선에서 어느 정도 동일한 특성을 보이는가?
- RQ3등가 FC 및 CONV 레이어 간의 학습된 가중치는 프로베니우스 노름 기준으로 얼마나 유사한가?
- RQ4SGD 및 Adam과 같은 다른 최적화 알고리즘에서도 동등성이 유지되는가?
- RQ5완전히 연결된 네트워크에서 개발된 기법은 이 동등성을 통해 컨볼루션 네트워크에 직접 적용할 수 있는가?
주요 결과
- 컨볼루션 연산은 특정 재형태화 조건 하에서 정확히 행렬 곱셈으로 표현 가능하며, 이는 FC 및 CONV 레이어가 수학적으로 동일함을 증명한다.
- SGD 최적화 하에서 동일한 아키텍처와 초기화를 가진 완전히 연결된 네트워크와 컨볼루션 네트워크를 훈련시킬 경우, 거의 동일한 훈련 및 검증 손실 곡선을 기록한다.
- 등가 CONV 및 FC 레이어의 학습된 가중치 간 프로베니우스 노름 차이는 2.12e-7로, 거의 완벽한 가중치 대응을 나타낸다.
- 두 네트워크의 첫 번째 레이어 출력 특징 맵 간의 프로베니우스 노름 차이는 1.85e-6에 불과하여 기능적 동등성을 확인한다.
- Adam 최적화 하에서는 손실 곡선이 약간 분리되며, 가중치 간 차이가 프로베니우스 노름 0.0742로 증가하여 적응형 학습률이 수렴 대칭성에 영향을 줄 수 있음을 시사한다.
- 입력 데이터가 3차원 텐서(1000, 169, 16)로 재형태화된 경우에도 동등성이 유지되어 변환 과정이 계산적 동등성을 보존함을 확인한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.