[논문 리뷰] Vision GNN: An Image is Worth Graph of Nodes
ViG는 이미지를 패치 그래프로 표현하고 Grapher 및 FFN 모듈이 포함된 그래프 신경망을 사용하여 ImageNet 및 COCO에서 다양한 백본보다 더 우수한 성능을 보인다.
Network architecture plays a key role in the deep learning-based computer vision system. The widely-used convolutional neural network and transformer treat the image as a grid or sequence structure, which is not flexible to capture irregular and complex objects. In this paper, we propose to represent the image as a graph structure and introduce a new Vision GNN (ViG) architecture to extract graph-level feature for visual tasks. We first split the image to a number of patches which are viewed as nodes, and construct a graph by connecting the nearest neighbors. Based on the graph representation of images, we build our ViG model to transform and exchange information among all the nodes. ViG consists of two basic modules: Grapher module with graph convolution for aggregating and updating graph information, and FFN module with two linear layers for node feature transformation. Both isotropic and pyramid architectures of ViG are built with different model sizes. Extensive experiments on image recognition and object detection tasks demonstrate the superiority of our ViG architecture. We hope this pioneering study of GNN on general visual tasks will provide useful inspiration and experience for future research. The PyTorch code is available at https://github.com/huawei-noah/Efficient-AI-Backbones and the MindSpore code is available at https://gitee.com/mindspore/models.
연구 동기 및 목표
- 그리드나 시퀀스가 아닌 그래프로 시각 데이터를 표현하는 것을 동기부여하고 탐구한다.
- 그룹 Grapher 및 FFN 모듈과 함께 이미지 패치를 노드로 처리하는 그래프 기반 백본(ViG)을 제안한다.
- 분류 및 검출과 같은 비전 작업 전반에 걸쳐 등방성 및 피라미드 ViG 아키텍처를 조사한다.
- ImageNet 분류 및 COCO 물체 검출/세분화에서 ViG의 효과를 입증한다.
- 그래프 구성과 채널별 특성 다양성에 대한 통찰을 제공하여 GNN의 과도한 평활화(over-smoothing)를 해결한다.
제안 방법
- 이미지를 N개의 패치로 변환하고 패치를 노드로 취급하며 각 노드를 K 개의 최근접 이웃에 연결하여 그래프 G(X)를 형성한다.
- max-relatve graph convolution에 기반한 Grapher 모듈을 사용하여 다중 헤드 메커니즘으로 노드 특징을 집계하고 업데이트한다.
- 노드-wise 특징 변환을 위한 FFN 모듈(두 개의 선형 계층과 GELU)을 적용하여 다양성을 유지한다.
- Grapher와 FFN 블록을 쌓아 ViG를 구성하며 등방성 및 피라미드 네트워크 변형이 있다.
- 공간 정보를 주입하기 위해 위치 인코딩을 도입한다(등방성과 피라미드 모두에 대해 절대 위치 인코딩; 피라미드에는 상대 위치 인코딩).
- Grapher의 dilated aggregation 및 다양성을 보존하기 위한 skip 연결을 포함한 표준 비전 데이터 증강 및 최적화 전략으로 학습한다.
실험 결과
연구 질문
- RQ1그래프 기반의 이미지 패치 표현이 표준 비전 벤치마크에서 그리드/시퀀스 기반 백본을 능가할 수 있는가?
- RQ2Grapher와 FFN 모듈은 네트워크가 심화될 때 과도한 평활화를 방지하고 특징 다양성을 보존하는가?
- RQ3등방성 대 피라미드 ViG 아키텍처는 분류 및 검출 작업에서 어떻게 비교되는가?
- RQ4그래프 구성 선택(K, 헤드 수)이 ViG의 성능에 어떤 영향을 미치는가?
- RQ5ViG 백본은 ImageNet 및 COCO에서 CNN, MLP, 트랜스포머에 비해 어떤 성능을 보이는가?
주요 결과
- Pyramid ViG-S는 ImageNet에서 Top-1 정확도 82.1%를 달성하며 약 4.5B FLOPs의 CNN, MLP, 트랜스포머와 같은 FLOPs 설정에서 더 우수한 성능을 보인다.
- Isotropic ViG 변형(Ti, S, B)은 모델 크기가 증가함에 따라 경쟁력 있는 성능을 보여준다(Top-1 73.9% ViG-Ti, 80.4% ViG-S, 82.3% ViG-B).
- ViG 백본은 RetinaNet 및 Mask R-CNN 프레임워크에서 COCO 물체 검출 및 인스턴스 분할에 대해 대표 백본을 능가한다.
- 그래프 컨볼루션 중에서 Max-Relative GraphConv가 FLOPs와 정확도 간에 우호적인 트레이드를 제공한다(표 6).
- Grapher의 FC 및 ViG 블록의 FFN 도입으로 정확도가 향상되어 과도한 평활화 문제를 해결하고 특징 다양성을 개선한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.