QUICK REVIEW

[논문 리뷰] Dynamic Routing Between Capsules

Sara Sabour, Nicholas Frosst|arXiv (Cornell University)|2017. 10. 26.

Topic Modeling참고 문헌 16인용 수 88

한 줄 요약

Capsule networks (CapsNets)은 인스턴스 매개변수를 벡터로 표현하고 합의에 의한 라우팅(routing-by-agreement) 메커니즘을 통해 출력을 상위 레벨 캡슐로 동적으로 라우팅하여, MNIST에서 강력한 성능과 겹치는 숫자에 대한 강건성을 달성합니다.

ABSTRACT

A capsule is a group of neurons whose activity vector represents the instantiation parameters of a specific type of entity such as an object or an object part. We use the length of the activity vector to represent the probability that the entity exists and its orientation to represent the instantiation parameters. Active capsules at one level make predictions, via transformation matrices, for the instantiation parameters of higher-level capsules. When multiple predictions agree, a higher level capsule becomes active. We show that a discrimininatively trained, multi-layer capsule system achieves state-of-the-art performance on MNIST and is considerably better than a convolutional net at recognizing highly overlapping digits. To achieve these results we use an iterative routing-by-agreement mechanism: A lower-level capsule prefers to send its output to higher level capsules whose activity vectors have a big scalar product with the prediction coming from the lower-level capsule.

연구 동기 및 목표

Capsule outputs가 벡터를 인스턴스 매개변수와 존재를 벡터 길이로 인코딩하는 표현을 동기화하기
routing-by-agreement를 도입하여 하위 레벨 캡슐 출력을 적절한 상위 레벨 캡슐에 할당
routing과 재구성 정규화를 갖춘 CapsNets가 더 적은 매개변수로도 경쟁력 있는 MNIST 정확도를 달성함을 보여주기
아핀 변환에 대한 강건성과 고도로 겹치는 숫자의 구간 segmentation 가능성 시연

제안 방법

캡슐을 길이가 존재 확률을, 방향이 인스턴스 매개변수를 인코딩하는 벡터 출력을 갖는 뉴런 그룹으로 정의
변환 행렬을 사용해 상위 레벨 캡슐의 인스턴스를 예측하고 coupling 계수를 조정하는 routing-by-agreement를 활용
캡슐 출력을 [0,1) 길이를 유지하기 위한 squash 비선형성을 적용
예측과 출력 간의 합의(dot product) 기반의 라우팅 로그확률에 대한 소프트맥스(iterative routing)를 통해 어떤 하위 레벨 캡슐이 어떤 상위 레벨 캡슐에 feed될지 반복적으로 정제
올바른 존재/부재 신호를 유도하기 위해 각 숫자 클래스당 마진 로스를 사용하여 손실 학습; 숫자 캡슐들 간의 합으로 합산
선택적으로 입력으로부터 타깃 숫자 캡슐을 재구성해 포즈 인코딩을 정규화하는 재구성 디코더를 사용

실험 결과

연구 질문

RQ1벡터 기반 캡슐 표현과 routing-by-agreement를 결합하면 MNIST 같은 숫자 인식 작업에서 CNN을 능가할 수 있을까?
RQ2재구성(reconstruction)을 정규화로 사용하는 것이 포즈 인코딩과 라우팅 성능의 질을 향상시키는가?
RQ3CapsNet은 고도로 겹친 숫자와 아핀 변환을 기존 CNN과 비교할 때 어떻게 처리하는가?
RQ4라우팅 반복 횟수와 모델 크기가 분류 정확도 및 세그먼테이션 능력에 미치는 영향은 무엇인가?

주요 결과

Method	Routing	Reconstruction	MNIST (%)	MultiMNIST (%)
Baseline	-	-	0.39	8.1
CapsNet	1	no	0.34±0.032	-
CapsNet	1	yes	0.29±0.011	7.5
CapsNet	3	no	0.35±0.036	-
CapsNet	3	yes	0.25±0.005	5.2

라우팅이 있는 CapsNets는 3번의 라우팅 반복과 재구성 정규화를 통해 MNIST 오차율 0.25%를 달성한다.
라우팅만 있는 CapsNet은 0.34% MNIST 오차; 라우팅+재구성은 0.29%; 1회 반복 대 3회 반복에서 성능 향상을 보인다.
MNIST에서 CapsNet은 8.2M 매개변수를 사용하고 (재구성 없이 6.8M), 비교 가능한 CNN 기반 모델은 35.4M 매개변수이다.
CapsNet은 MNIST에서 0.25%를, MultiMNIST에서 5.2%를 달성하며 재구성 정규화는 라우팅 성능을 향상시킨다.
CapsNet은 아핀 변환에 대한 강건성을 보여주고 합의에 의한 라우팅으로 겹치는 숫자를 구분할 수 있다.
CIFAR-10에서 CapsNets의 앙상블은 10.6%의 테스트 오차를 달성하여 초기 CNN 결과와 유사하며; smallNORB와 SVHN에서도 경쟁력 있는 성능이 보고된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.