QUICK REVIEW

[논문 리뷰] Learning Deep Bilinear Transformation for Fine-grained Image Representation

Heliang Zheng, Jianlong Fu|arXiv (Cornell University)|2019. 11. 09.

Advanced Neural Network Applications인용 수 52

한 줄 요약

깊은 이항 변환(DBT) 블록을 도입하여 의미적으로 그룹화된 피처 채널 내의 이항 상호작용을 학습하고, CNN에서 깊은 스택화를 가능하게 하며, 복잡도를 감소시키고 여러 미세-그레인 벤치마크에서 최첨단 성능을 달성합니다.

ABSTRACT

Bilinear feature transformation has shown the state-of-the-art performance in learning fine-grained image representations. However, the computational cost to learn pairwise interactions between deep feature channels is prohibitively expensive, which restricts this powerful transformation to be used in deep neural networks. In this paper, we propose a deep bilinear transformation (DBT) block, which can be deeply stacked in convolutional neural networks to learn fine-grained image representations. The DBT block can uniformly divide input channels into several semantic groups. As bilinear transformation can be represented by calculating pairwise interactions within each group, the computational cost can be heavily relieved. The output of each block is further obtained by aggregating intra-group bilinear features, with residuals from the entire input features. We found that the proposed network achieves new state-of-the-art in several fine-grained image recognition benchmarks, including CUB-Bird, Stanford-Car, and FGVC-Aircraft.

연구 동기 및 목표

전통적인 이항 풀링의 높은 계산 비용을 미세-그레인 인식을 위해 제시하고 해결한다.
의미적 그룹화를 이용해 의미적 그룹 내에서 이항 상호작용을 학습하는 깊은 이항 변환(DBT) 블록을 제안한다.
특징 차원을 증가시키지 않으면서 CNN에서 DBT 블록의 깊은 스택화를 가능하게 한다.
DBT를 CNN 백본에 통합하여 다수의 미세-그레인 데이터셋에서 최신의 성능을 입증한다.

제안 방법

입력 채널을 의미 정보에 기반하여 균일하게 G개의 그룹으로 나누는 의미적 그룹화를 도입한다.
각 의미적 그룹 내에서 그룹 내부의 이항 변환을 적용하여 구별 가능한 쌍 상호작용을 포착한다.
그룹 순서를 보존하면서 그룹 인덱스 인코딩으로 그룹 간의 이너그룹 이항 특징을 집계한다.
원래 특징과 이항 특징을 융합하는 잔차 연결을 사용하고 융합 전에 tanh 활성화를 적용한다.
ResNet 유사 아키텍처에 DBT 블록을 통합하여 DBTNet을 구성하고, 의미적 그룹 제약을 포함한 학습 손실을 사용한다.

실험 결과

연구 질문

RQ1의미-guided 그룹화가 미세-그레인 인식을 위한 깊은 CNN에서 효과적이고 효율적인 이항 상호작용을 가능하게 하는가?
RQ2DBT 블록의 깊은 스택이 표준 미세-그레인 데이터셋에서 기본 CNN 및 기존 이항 풀링 방법에 비해 이득을 가져오는가?
RQ3의미적 그룹화 손실, 그룹 인덱스 인코딩 및 잔차 연결이 성능과 최적화에 미치는 영향은 무엇인가?
RQ4CUB-200-2011, Stanford-Car, FGVC-Aircraft 및 대규모 iNaturalist에서 DBTNet이 최첨단 이항 및 2차 차수 풀링 방법과 비교해 어떤 차이를 보이는가?

주요 결과

접근 방식	차원	CUB-200-2011	Stanford-Car	Aircraft
Compact Bilinear	14k	81.6	88.6	81.6
Kernel Pooling	14k	84.7	91.1	85.7
iSQRT-COV	8k	87.3	91.7	89.5
iSQRT-COV	32k	88.1	92.8	90.0
DBTNet-50 (ours)	2k	87.5	94.1	91.2
DBTNet-101 (ours)	2k	88.1	94.5	91.6

DBTNet은 심층 CNN에 통합될 때 CUB-200-2011, Stanford-Car 및 FGVC-Aircraft에서 새로운 최신 성능(SOTA)을 달성한다.
DBTNet-50(마지막 레이어 이항 특징 2k 차원)에서 87.5%(CUB-200-2011), 94.1%(Stanford-Car), 91.2%(Aircraft)을 달성한다.
DBTNet-101(마지막 레이어 이항 특징 2k 차원)에서 88.1%(CUB-200-2011), 94.5%(Stanford-Car), 91.6%(Aircraft)을 달성한다.
Compact Bilinear, Kernel Pooling, iSQRT-COV에 비해 세 미세-그레인 데이터셋에서 DBTNet은 명확한 정확도 이점을 보인다.
대규모 iNaturalist-2017에서 DBTNet-50이 ResNet-50보다 2.1% 포인트 개선을 보였고, DBT 접근법을 사용할 때 ImageNet에서도 이익이 나타난다.
방법은 예비 FLOPs가 보통 수준으로 효율적이며(예: 기본 구성을 기준으로 약 3.8B FLOPs, 더 큰 DBT 모델은 약 7.6B)

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.