QUICK REVIEW

[논문 리뷰] Non-local Neural Networks

Xiaolong Wang, Ross Girshick|arXiv (Cornell University)|2017. 11. 21.

Human Pose and Action Recognition참고 문헌 55인용 수 147

한 줄 요약

비지역 연산을 장거리 의존성을 포착하기 위한 일반적인 빌딩 블록으로 소개하며, 비디오 분류 및 COCO 태스크에서 강한 향상을 보여주고, 쉽지 않은 불필요한 장치 없이도 최신 기법과 경쟁력 있는 결과를 얻습니다.

ABSTRACT

Both convolutional and recurrent operations are building blocks that process one local neighborhood at a time. In this paper, we present non-local operations as a generic family of building blocks for capturing long-range dependencies. Inspired by the classical non-local means method in computer vision, our non-local operation computes the response at a position as a weighted sum of the features at all positions. This building block can be plugged into many computer vision architectures. On the task of video classification, even without any bells and whistles, our non-local models can compete or outperform current competition winners on both Kinetics and Charades datasets. In static image recognition, our non-local models improve object detection/segmentation and pose estimation on the COCO suite of tasks. Code is available at https://github.com/facebookresearch/video-nonlocal-net .

연구 동기 및 목표

비전 작업에서 국소 합성곱 및 순환 연결을 넘어서는 장거리 의존성 모델링의 필요성을 동기화합니다.
전역 컨텍스트를 포착하기 위해 모든 위치에 대한 가중합으로 응답을 계산하는 일반적인 비지역 연산을 제안합니다.
비지역 블록이 합리적인 계산 오버헤드로 비디오 분류, 객체 탐지/세분화 및 포즈 추정 성능을 개선할 수 있음을 보여줍니다.

제안 방법

y_i = (1/C(x)) sum_j f(x_i, x_j) g(x_j) 형태의 일반적인 비지역 연산을 정의합니다. 여기서 f는 쌍관계를 측정하고 g는 위치 j의 입력을 임베딩합니다.
f의 변형(Gaussian, embedded Gaussian, dot-product, concatenation) 및 g의 변형(1x1 또는 1x1x1 합성곱을 통한 선형 임베딩)을 사용하여 비지역 블록을 구체화합니다.
연산을 잔차 비지역 블록 z_i = W_z y_i + x_i로 감싸 사전 학습된 네트워크에 쉽게 통합할 수 있도록 합니다.
계산을 줄이기 위해 채널 축을 줄이는 병목 설계(W_g, W_theta, W_phi) 및 선택적 하향 샘플링을 사용합니다.
2D 및 확장된 3D CNN(C2D 및 I3D)에 비지역 블록을 비디오 모델에 통합하고 COCO의 탐지/세분화 및 키포인트 추정에 대해 테스트합니다.

실험 결과

연구 질문

RQ1비지역 연산자가 공간, 시간 또는 시공간에서 장거리 의존성을 직접 모델링할 수 있는지, 전통적인 로컬 합성곱이나 순환 접근법과 어떻게 비교되는지?
RQ2백본의 소수 또는 서로 다른 단계에서 추가될 때도 비지역 블록이 효율적이고 유익한지?
RQ3비지역 블록이 비디오 모델의 3D 합성곱과 보완적 관계에 있는지, COCO 탐지/세분화 및 키포인트 추정과 같은 정적 이미지 태스크로 확장되는지?

주요 결과

단일 비지역 블록은 2D 베이스라인에 추가했을 때 Kinetics에서 약 1%의 향상을 얻을 수 있습니다.
Embedded Gaussian, dot-product, 및 concatenation 변형은 비슷한 성능을 보이며, 해석 가능성을 위해 기본적으로 embedded Gaussian를 사용합니다.
다수의 비지역 블록을 추가하면 추가 이득이 발생합니다. 예를 들어 5블록 및 10블록 구성은 Kinetics의 top-1 정확도를 개선하고, 시공간 비지역 네트는 일부 더 깊은 베이스라인보다 우수합니다.
시공간(공간과 시간)을 함께 다루는 비지역 블록이 공간 전용 또는 시간 전용 변형보다 더 큰 이득을 제공합니다.
비지역 네트는 Kinetics/Charades에서 RGB I3D 베이스라인을 능가하며, 일부 설정에서 3D 합성곱보다 FLOP 효율이 더 좋을 수 있습니다.
COCO에서 단일 비지역 블록이 백본 전반의 AP^box 및 AP^mask를 개선하고 계산 오버헤드는 작으며, 추가 블록은 수익이 감소하는 수익 감소 효과를 보입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.