[논문 리뷰] Generalized Capsule Networks with Trainable Routing Procedure
이 논문은 라우팅 절차가 완전히 미분 가능하고, 결합 계수를 학습 가능하게 하여 수동으로 라우팅 반복 설정이 필요 없도록 한 일반화된 캡슐 네트워크(G-CapsNet)를 제안한다. 이 방법은 파라미터 수를 크게 줄이며 기존 CapsNets와 유사한 MNIST 성능을 달성한다. 실험 결과 캡슐 패키징 전략이 정확도에 미치는 영향은 미미한데, 깊이 있는 아키텍처는 포화 현상에 빠지는 문제가 있다.
CapsNet (Capsule Network) was first proposed by~\citet{capsule} and later another version of CapsNet was proposed by~\citet{emrouting}. CapsNet has been proved effective in modeling spatial features with much fewer parameters. However, the routing procedures in both papers are not well incorporated into the whole training process. The optimal number of routing procedure is misery which has to be found manually. To overcome this disadvantages of current routing procedures in CapsNet, we embed the routing procedure into the optimization procedure with all other parameters in neural networks, namely, make coupling coefficients in the routing procedure become completely trainable. We call it Generalized CapsNet (G-CapsNet). We implement both "full-connected" version of G-CapsNet and "convolutional" version of G-CapsNet. G-CapsNet achieves a similar performance in the dataset MNIST as in the original papers. We also test two capsule packing method (cross feature maps or with feature maps) from previous convolutional layers and see no evident difference. Besides, we also explored possibility of stacking multiple capsule layers. The code is shared on \hyperlink{https://github.com/chenzhenhua986/CAFFE-CapsNet}{CAFFE-CapsNet}.
연구 동기 및 목표
- 수동 조정이 필요한 고정된 비학습 가능한 라우팅 반복 설정이라는 기존 CapsNets의 한계를 해결하기 위해.
- 캡슐 라우팅 절차를 전체 최적화 과정에 통합하여 결합 계수를 학습 가능한 파라미터로 만들기 위해.
- 다양한 캡슐 패키징 전략(특징 맵 간 또는 내부)이 성능에 미치는 영향을 평가하기 위해.
- 다중 캡슐 레이어를 스태킹하여 CapsNets의 확장성에 대해 조사하기 위해.
- 캡슐 네트워크가 단일 레이어 아키텍처를 초월해 확장되더라도 성능 저하 없이 적용 가능한지 탐색하기 위해.
제안 방법
- 결합 계수 $ c^{(l)}_{ji} $ 를 가중치 $ W^{(l)}_{ji} $ 와 함께 학습 가능한 파라미터로 삼아 라우팅 절차를 최적화 과정에 통합함으로써 엔드 투 엔드 백프로파게이션을 가능하게 한다.
- 변환 행렬 가중치와 결합 계수를 모두 포함하는 공동 손실 함수를 제안하고, L2 정규화를 통해 안정성을 확보한다.
- Sabour 등(2017) 및 Edgar 등(2017)의 스쿼시 함수를 사용하여 캡슐 출력을 정규화하고 비선형성을 도입한다.
- 완전 연결형 및 컨볼루션형 G-CapsNet을 모두 구현하며, 컨볼루션 버전에서는 공유된 변환 행렬을 사용한다.
- 더 깊은 아키텍처에서의 훈련 안정성을 향상시키기 위해 ReLU의 캡슐 버전을 설계한다.
- 원래 CapsNet과 마찬가지로 분류를 위해 마진 손실을 적용하여 객체 인식을 위한 네트워크 훈련을 수행한다.
실험 결과
연구 질문
- RQ1백프로파게이션 동안 결합 계수를 학습시킴으로써 CapsNets의 라우팅 절차를 완전히 학습 가능한 것으로 만들 수 있는가?
- RQ2캡슐 패키징 전략 선택—특징 맵 간 또는 내부—이 모델 성능에 영향을 미치는가?
- RQ3더 깊은 캡슐 네트워크는 성공적으로 훈련될 수 있으며, 단일 캡슐 레이어를 초월한 확장성에서의 과제는 무엇인가?
- RQ4G-CapsNet의 성능은 오차율과 파라미터 효율성 측면에서 기준선 CapsNets와 비교해 어떻게 되는가?
- RQ5라우팅의 엔드 투 엔드 훈련은 수동적인 라우팅 반복 설정이 필요 없게 하는가?
주요 결과
- 재구성 기능을 사용할 경우, G-CapsNet은 단지 820만 개의 파라미터로 MNIST에서 테스트 오차율 0.66%를 기록하여 기준선 CapsNet(3,540만 개 파라미터, 오차율 0.83%)를 초월한다.
- 재구성 기능이 없는 완전 연결형 G-CapsNet 버전은 단지 680만 개의 파라미터로 0.66%의 오차율을 달성하여 높은 파라미터 효율성을 입증한다.
- 컨볼루션형 G-CapsNet 버전은 550만 개의 파라미터로 0.70%의 오차율을 기록하여 컨볼루션 환경에서도 파라미터 효율성이 유지됨을 보여준다.
- 특징 맵 간과 내부에 캡슐을 패키징하는 방식 간 성능 차이는 미미하며, 오차율은 각각 0.68%와 0.66%였다.
- 다중 레이어 G-CapsNets는 캡슐 버전의 ReLU를 적용한 후에도 훈련 중 포화 현상에 빠지는 경향이 있어 확장성은 여전히 주요 과제로 남아 있다.
- 제안된 엔드 투 엔드 학습 가능한 라우팅 절차는 수동적인 라우팅 반복 설정이 필요 없고, 최적화를 통한 수렴을 보장한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.