[논문 리뷰] SimVG: A Simple Framework for Visual Grounding with Decoupled Multi-modal Fusion
SimVG는 다중 모달 융합을 다운스트림 그라운딩 작업과 분리하고, 경량 토큰 브랜치와 동적 가중치 균형 증류를 활용한 통합 다중 모달 인코더로 최첨단 비주얼 그라운딩을 효율적으로 달성한다.
Visual grounding is a common vision task that involves grounding descriptive sentences to the corresponding regions of an image. Most existing methods use independent image-text encoding and apply complex hand-crafted modules or encoder-decoder architectures for modal interaction and query reasoning. However, their performance significantly drops when dealing with complex textual expressions. This is because the former paradigm only utilizes limited downstream data to fit the multi-modal feature fusion. Therefore, it is only effective when the textual expressions are relatively simple. In contrast, given the wide diversity of textual expressions and the uniqueness of downstream training data, the existing fusion module, which extracts multimodal content from a visual-linguistic context, has not been fully investigated. In this paper, we present a simple yet robust transformer-based framework, SimVG, for visual grounding. Specifically, we decouple visual-linguistic feature fusion from downstream tasks by leveraging existing multimodal pre-trained models and incorporating additional object tokens to facilitate deep integration of downstream and pre-training tasks. Furthermore, we design a dynamic weight-balance distillation method in the multi-branch synchronous learning process to enhance the representation capability of the simpler branch. This branch only consists of a lightweight MLP, which simplifies the structure and improves reasoning speed. Experiments on six widely used VG datasets, i.e., RefCOCO/+/g, ReferIt, Flickr30K, and GRefCOCO, demonstrate the superiority of SimVG. Finally, the proposed method not only achieves improvements in efficiency and convergence speed but also attains new state-of-the-art performance on these benchmarks. Codes and models will be available at \url{https://github.com/Dmmm1997/SimVG}.
연구 동기 및 목표
- 다중 모달 융합을 다운스트림 작업으로부터 분리하여 시각적 그라운드를 개선하려는 동기를 부여한다.
- HeavyDownstream Fusion 모듈 없이 교차 모달 상호작용을 향상시키기 위해 사전 학습된 다중 모달 모델을 활용한다.
- 효율성과 속도를 높이기 위해 경량 토큰 기반 브랜치와 증류 메커니즘을 도입한다.
- 객체 쿼리에 텍스트 priors를 주입하기 위한 텍스트 가이드 쿼리 생성 모듈을 도입한다.
- 데이터 효율성과 수렴 속도가 향상된 상태에서 여섯 개 VG 데이터셋에 걸친 최첨단 성능을 입증한다.
제안 방법
- 이미지, 텍스트, 학습 가능한 객체 토큰을 인코딩하는 BEiT-3 스타일 아키텍처를 기반으로 한 다중 모달 인코더를 사용한다.
- 표준 디코더 브랜치(트랜스포머 기반)와 MLP를 활용한 경량 토큰 브랜치를 갖는 듀얼 브랜치 디코더를 채택한다.
- DWBD(Dynamic Weight-Balance Distillation)가 동시 학습 중 지도 신호를 실제 정답과 디코더 예측 간에 시간적으로 균형 있게 조정하도록 한다.
- 객체 쿼리에 텍스트 priors를 주입하기 위한 텍스트 가이드 쿼리 생성(TQG) 모듈을 도입한다.
- DETR 스타일 헝가리 매칭 손실과 DWBD 손실을 결합한 증류 헤드를 사용해 학습한다.
- 속도 향상을 위해 토큰 및 디코더 브랜치를 서로 독립적으로 사용 가능하도록 설정(SimVG-TB/SimVG-DB).
- 융합을 작업별 그라운딩에서 분리했을 때 수렴 속도와 데이터 효율이 향상됨을 시연한다.
실험 결과
연구 질문
- RQ1다중 모달 융합을 다운스트림 그라운딩에서 분리하는 것이 복합 표현식에서 성능을 향상시키는가?
- RQ2강력한 디코더의 도움을 받는 경량 토큰 브랜치가 더 낮은 계산으로 경쟁력 있거나 우수한 그라운딩을 달성할 수 있는가?
- RQ3동적 가중치 균형 증류(DWBD)가 동시 학습 중 토큰 및 디코더 브랜치를 정렬하는 데 얼마나 효과적인가?
- RQ4확장된 GREC 스타일 질의를 다룰 때 텍스트 가이드 쿼리 생성(TQG)이 그라운딩을 개선하는가?
- RQ5시뮬레이션 VG 벤치마크에서 데이터 효율성과 수렴 이점은 무엇인가?
주요 결과
- SimVG는 RefCOCO/+/g, ReferIt, Flickr30K, GRefCOCO를 포함한 여섯 개 VG 데이터셋에서 최첨단 성능을 달성한다.
- DWBD의 도움을 받은 경량 토큰 브랜치는 더 큰 인코더와 함께 있을 때 특히 디코더 브랜치의 성능에 맞먹거나 능가할 수 있다.
- DWBD는 학습 중 지도 신호를 실제 정답에서 디코더 예측으로 동적으로 전이시키며 토큰-브랜치 학습을 향상시킨다.
- TQG는 객체 쿼리에 텍스트 priors를 주입하여 평균 ~0.8 포인트 수준의 개선을 RefCOCO val/test에서 달성한다.
- SimVG는 수렴 속도와 데이터 효율성을 높이며 비교적 적은 사전 학습 데이터와 보통의 컴퓨트로도 강력한 결과를 달성한다(예: ViT-B/32, RefCOCO 변형에서 RTX 3090으로 12시간).
- SimVG-TB 및 SimVG-DB 변형은 효율적인 추론과 경쟁력 있는 정확도를 가능하게 하며 실용적 배치를 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.