Skip to main content
QUICK REVIEW

[논문 리뷰] Connectivity Learning in Multi-Branch Networks

Karim Ahmed, Lorenzo Torresani|arXiv (Cornell University)|2017. 09. 27.
Domain Adaptation and Few-Shot Learning참고 문헌 25인용 수 25
한 줄 요약

이 논문은 백프로파게이션을 통해 네트워크 가중치와 함께 공동 최적화되는 미분 가능 이진 게이트를 도입하여 딥 네ural 네트워크에서 다중 브랜치 네트워크 연결성을 학습하는 방법을 제안한다. ResNeXt와 같은 고정 아키텍처와는 달리, 이 방법은 최적의 입력 연결 및 집계 경로를 자동으로 발견하며, 성능 향상(최대 3.8% 향상)을 이끌어내고 성능 손실 없이 여분의 잔차 블록을 자동으로 제거할 수 있다.

ABSTRACT

While much of the work in the design of convolutional networks over the last five years has revolved around the empirical investigation of the importance of depth, filter sizes, and number of feature channels, recent studies have shown that branching, i.e., splitting the computation along parallel but distinct threads and then aggregating their outputs, represents a new promising dimension for significant improvements in performance. To combat the complexity of design choices in multi-branch architectures, prior work has adopted simple strategies, such as a fixed branching factor, the same input being fed to all parallel branches, and an additive combination of the outputs produced by all branches at aggregation points. In this work we remove these predefined choices and propose an algorithm to learn the connections between branches in the network. Instead of being chosen a priori by the human designer, the multi-branch connectivity is learned simultaneously with the weights of the network by optimizing a single loss function defined with respect to the end task. We demonstrate our approach on the problem of multi-class image classification using three different datasets where it yields consistently higher accuracy compared to the state-of-the-art "ResNeXt" multi-branch network given the same learning capacity.

연구 동기 및 목표

  • 다중 브랜치 신경망 아키텍처에서 수동 설계가 초래하는 문제, 즉 고정된 분기 수, 공유 입력, 덧셈 집계 규칙 등의 연결 규칙이 최적화되지 않는 문제를 해결하기 위해.
  • 다중 브랜치 네트워크에서 사전 정의된 연결 패턴을 제거하고, 학습 기간 동안 엔드 투 엔드로 연결성을 학습하기 위해.
  • 단일 손실 함수를 통해 네트워크 가중치와 연결 구조를 공동 최적화하여 이미지 분류 성능을 향상시키기 위해.
  • 정확도 저하 없이 여분의 잔차 블록을 자동으로 식별하고 제거하여 모델 크기와 추론 비용을 줄이기 위해.

제안 방법

  • 다중 브랜치 아키텍처에서 각 잔차 블록에 입력되는 특징을 제어하는 학습 가능한 이진 게이트를 도입한다.
  • 이산 게이트를 통해 기울기를 백프로파게이션하기 위해 스트레이트스러우 estimator를 사용하여 연결성과 가중치의 엔드 투 엔드 학습을 가능하게 한다.
  • ResNeXt 유사 아키텍처에서 각 브랜치의 입력 연결을 결정하기 위해 게이트를 적용하여 고정된 라우팅을 학습된 라우팅으로 대체한다.
  • 다중 클래스 교차 엔트로피 손실을 사용하여 게이트와 합성곱 가중치를 포함한 전체 네트워크를 표준 백프로파게이션을 통해 최적화한다.
  • 학습 중 기울기 흐름을 허용하기 위해 이진 게이트의 미분 가능 근사값을 사용하며, 추론 시에는 딱딱한 결정을 내린다.
  • 학습 후 사용되지 않는 잔차 블록을 제거할 수 있도록 하며, 게이트가 기여하지 않는 브랜치를 식별한다.

실험 결과

연구 질문

  • RQ1다중 브랜치 합성곱 네트워크의 연결성이 인간 설계자가 정의한 방식이 아닌 엔드 투 엔드로 학습될 수 있는가?
  • RQ2다양한 게이트를 통한 연결성 학습이 동일한 파rameter 예산 내에서 ResNeXt와 같은 고정 아키텍처보다 더 높은 성능을 내는가?
  • RQ3학습 과정이 정확도 저하 없이 여분의 잔차 블록을 자동으로 식별하고 제거할 수 있는가?
  • RQ4기존의 가중치 제거나 강화 학습 기반 아키텍처 탐색 방법과 비교해 효율성과 정확도 측면에서 제안된 방법은 어떠한가?

주요 결과

  • 제안된 방법은 네 가지 벤치마크 데이터셋에서 최신 기준인 ResNeXt 모델보다 더 높은 분류 정확도를 달성하였으며, 최대 3.8% 향상된 성능을 보였다.
  • 유사한 파라미터 예산 하에서 학습된 연결 구조는 고정된 ResNeXt 연결 구조보다 일관되게 뛰어난 성능을 보였다.
  • 알고리즘이 기여하지 않는 블록을 자동으로 식별하여 최대 30%의 잔차 블록을 제거함으로써 모델 크기와 추론 비용을 줄였다.
  • 최종 모델는 제거 후에도 정확도를 그대로 유지하였으며, 이는 학습된 게이트가 효과적으로 여분의 구성 요소를 탐지하고 제외함을 보여준다.
  • 비용이 많이 드는 검색 방법(예: 강화 학습 또는 진화 알고리즘)을 피할 수 있는 효율적인 기울기 기반 연결 최적화를 가능하게 한다.
  • 이 방법은 ResNeXt를 초월하여 DenseNet과 같은 사전 정의된 스킵 커넥션을 가진 다른 아키텍처에도 일반화 가능성을 보이며, 잠재적인 응용 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.