Skip to main content
QUICK REVIEW

[논문 리뷰] Depthwise Convolution is All You Need for Learning Multiple Visual Domains

Yunhui Guo, Yandong Li|arXiv (Cornell University)|2019. 02. 03.
Domain Adaptation and Few-Shot Learning참고 문헌 36인용 수 32
한 줄 요약

논문은 공유 포인트 분기와 도메인 특화 깊이별 분기를 갖는 깊이별 분리 합성 컨볼루션을 사용한 다중 도메인 학습 모델을 제시하고, 이전 방법의 약 절반 파라미터로 Visual Decathlon에서 최첨단 성능을 달성합니다.

ABSTRACT

There is a growing interest in designing models that can deal with images from different visual domains. If there exists a universal structure in different visual domains that can be captured via a common parameterization, then we can use a single model for all domains rather than one model per domain. A model aware of the relationships between different domains can also be trained to work on new domains with less resources. However, to identify the reusable structure in a model is not easy. In this paper, we propose a multi-domain learning architecture based on depthwise separable convolution. The proposed approach is based on the assumption that images from different domains share cross-channel correlations but have domain-specific spatial correlations. The proposed model is compact and has minimal overhead when being applied to new domains. Additionally, we introduce a gating mechanism to promote soft sharing between different domains. We evaluate our approach on Visual Decathlon Challenge, a benchmark for testing the ability of multi-domain models. The experiments show that our approach can achieve the highest score while only requiring 50% of the parameters compared with the state-of-the-art approaches.

연구 동기 및 목표

  • 시각 도메인 전반에 걸쳐 재사용 가능한 구조를 식별하여 하나의 모델로 여러 도메인 지원을 가능하게 한다.
  • 교차 채널 상관 관계를 모델링하기 위해 깊이별 분리 합성 컨볼루션 기반 아키텍처를 제안한다.
  • 공유 구성요소와 게이팅 메커니즘을 통해 새로운 도메인 학습 시 추가 파라미터를 최소화한다.
  • 깊이별 및 포인와이즈 합성된 특징의 해석 가능성을 탐구한다.
  • Visual Decathlon Challenge에서의 성능을 평가하고 강력한 베이스라인과 비교한다.

제안 방법

  • ResNet-26 백본의 표준 3x3 합성기를 깊이별 분리 합성으로 교체(깊이별 3x3 + 1x1 포인와이)하여 파라미터를 줄인다.
  • 도메인 간 포인와이 합성을 공유하여 교차 채널 상관 관계를 모델링한다.
  • 새 도메인에 대해 도메인 특화 깊이별 필터와 도메인 특화 배치 정규화 매개변수를 유지한다.
  • 추론 시 모든 도메인에 대해 깊이별 필터를 적층하여 도메인 특화 출력을 계산한다.
  • 층 간 도메인 간 얕은 공유를 통해 깊이별 필터를 소프트하게 결합하는 소프트 공유 게이트를 도입한다.
  • ImageNet 학습에서 초기화하고 새로운 도메인에 대해 도메인 특화 출력 헤드를 추가하며 깊이별 필터를 미세 조정한다.

실험 결과

연구 질문

  • RQ1단일 신경망이 도메인 간 universality 구조를 포착하면서 도메인 특화 공간 패턴을 허용할 수 있는가?
  • RQ2도메인 간 포인와이 필터 공유가 깊이별 필터 공유보다 파라미터 효율성과 성능이 더 우수한가?
  • RQ3깊이별 필터의 소프트 공유가 도메인 간 성능에 어떤 영향을 미치는가?
  • RQ4다중 도메인 설정에서 깊이별과 포인와이 합성의 특징 해석 가능성은 어떠한가?
  • RQ5제안된 접근법이 Visual Decathlon Challenge에서 최첨단 베이스라인과 비교하여 어떤 성능을 보이는가?

주요 결과

  • 제안된 깊이별/분리 합성 아키텍처는 테스트된 방법들 중 가장 높은 Visual Decathlon 점수를 달성하면서도 베이스라인의 약 절반 파라미터만 사용한다.
  • ResNet-26에서 표준 컨볼루션을 깊이별 분리 합성으로 대체하면 ImageNet 성능이 크게 향상된다(63.99 vs 60.32).
  • 도메인 간 포인와이 필터(교차 채널) 공유가 도메인 간 깊이별 필터 공유보다 파라미터 효율성 및 성능 면에서 경쟁력이 있거나 우수하다.
  • 도메인 특화 깊이별 필터와 공유 포인와이 필터를 통해 새로운 도메인에 효과적으로 적응할 수 있으며 파라미터 오버헤드는 약 0.3M(새 도메인당) 수준으로 나타난다.
  • 깊이별 필터의 소프트 공유는 일부 도메인에서 미세한 이점을 제공하지만 전체적으로 기본 접근법을 능가하지는 못한다; 초기 또는 말단 층 공유에서 일부 이득이 관찰된다.
  • 네트워크 해부를 통해 깊이별 합성은 포인와이 합성보다 더 높은 수준의 개념과 더 많은 속성을 포착하는 것으로 나타나, 도메인 간 공유가 공간 필터링보다 채널 차원에서 더 효과적임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.