[논문 리뷰] Compact Generalized Non-local Network
CGNL은 비-local 네트워크를 확장하여 채널 간 위치 상호 작용을 포착하는 컴팩트한 Taylor 기반 근사를 통해, 다수의 데이터세트에서 미세-구분 분류와 동작 인식의 성능을 향상시킵니다.
The non-local module is designed for capturing long-range spatio-temporal dependencies in images and videos. Although having shown excellent performance, it lacks the mechanism to model the interactions between positions across channels, which are of vital importance in recognizing fine-grained objects and actions. To address this limitation, we generalize the non-local module and take the correlations between the positions of any two channels into account. This extension utilizes the compact representation for multiple kernel functions with Taylor expansion that makes the generalized non-local module in a fast and low-complexity computation flow. Moreover, we implement our generalized non-local method within channel groups to ease the optimization. Experimental results illustrate the clear-cut improvements and practical applicability of the generalized non-local module on both fine-grained object recognition and video classification. Code is available at: https://github.com/KaiyuYue/cgnl-network.pytorch.
연구 동기 및 목표
- 채널 간 위치 간의 상호 작용 모델링을 통해 미세한 인식 성능을 향상시키는 것을 목표로 한다.
- 효율성을 위한 Taylor-시리즈 기반 커널 근사를 갖는 컴팩트 일반화 비국소(CGNL) 모듈을 제안한다.
- 최적화와 확장성을 용이하게 하기 위한 채널 그룹화를 도입한다.
- 미세-구조적 분류 및 동작 인식 작업에서 CGNL의 효과를 입증한다.
- CGNL을 원래의 non-local 블록 및 벤치마크와 비교한 통찰과 연구의 제거를 제공한다.
제안 방법
- non-local 연산을 일반화하여 채널 간 임의의 위치 간 상관관계를 모델링한다(Eq. 8).
- 더 표현력이 높은 함수 f를 사용하여 vec(Y)=f(vec(XW_theta),vec(XW_phi)) vec(XW_g)로 비국소 계산을 재작성한다.
- Taylor 전개를 통해 쌍(kernel) f를 근사하여 컴팩트한 표현을 얻는다(Eq. 12).
- 채널을 G 그룹으로 나누어 용량과 최적화를 관리하기 위해 그룹화된 CGNL 블록을 구현한다.
- CGNL을 표준 CNN 백본 내부에 삽입한 잔차-유사(block) 구조를 사용한다(Eq. 13).
- 커널 선택(dot product, embedded Gaussian, Gaussian RBF)을 비교하고 현실적으로 dot product가 종종 최선임을 보인다.
실험 결과
연구 질문
- RQ1채널 간의 긴 범위 의존성 모델링이 객체 및 동작의 미세 구분 인식을 개선할 수 있는가?
- RQ2Taylor-expanded의 컴팩트한 CGNL이 전체 비국소와 유사한 정확도 향상을 제공하면서 계산 비용을 감소시키는가?
- RQ3채널 그룹화가 CGNL 블록의 최적화 및 성능에 어떤 영향을 미치는가?
- RQ4실무에서 일반화 비국소 상호작용을 근사하는 최적의 커널 함수는 무엇인가?
- RQ5CGNL 블록이 이미지 및 비디오 작업(CUB, Mini-Kinetics, UCF101, COCO)에서 표준 NL 블록과 비교해 성능을 향상시키는가?
주요 결과
| Dataset | Model | Top1 | Top5 |
|---|---|---|---|
| Mini-Kinetics | R-50 | 75.54 | 92.16 |
| Mini-Kinetics | +1 NL block | 76.53 | 92.90 |
| Mini-Kinetics | +1 CGNL block | 77.76 | 93.18 |
| Mini-Kinetics | +5 NL block | 77.53 | 94.00 |
| Mini-Kinetics | +5 CGNL block | 78.79 | 94.37 |
| UCF-101 | R-50 | 81.62 | 94.62 |
| UCF-101 | +1 NL block | 82.88 | 95.74 |
| UCF-101 | +1 CGNL block | 83.38 | 95.42 |
| UCF-101 | +5 NL block | 79.21 | 93.21 |
| UCF-101 | +5 CGNL block | 79.88 | 93.37 |
| CUB-R50 | R-50 | 84.05 | 96.00 |
| CUB-R50 | +1 NL block | 84.79 | 96.76 |
| CUB-R50 | +1 CGNL block | 85.14 | 96.88 |
| CUB-R50 | +5 NL block | 85.10 | 96.18 |
| CUB-R50 | +5 CGNL block | 85.68 | 96.69 |
- CGNL은 원래의 비국소 블록에 비해 작업 전반에서 일관되게 성능을 향상시킨다(예: 미세-구조 분류 및 동작 인식).
- Dot-product 커널이 평가된 커널 중 CGNL에서 종종 최고의 성능을 제공한다.
- 채널 그룹화는 최적의 그룹 수에서 성능을 향상시킬 수 있으나(예: Mini-Kinetics에서 8 그룹), 그룹이 과도하면 채널 간 상관관계를 해칠 수 있다.
- CGNL은 동일한 수의 블록을 추가했을 때 NL 블록보다 더 큰 이점을 달성한다(예: 1개 또는 5개 블록).
- ImageNet에서 CGNL 블록 1개를 더하면 베이스라인보다 상위 1% 정확도가 향상된다(예: R-50에서 76.15에서 77.69로).
- CGNL 블록은 백본에 NL 블록보다 COCO의 Mask R-CNN 결과를 개선한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.