QUICK REVIEW

[논문 리뷰] Rethinking Cross-modal Interaction from a Top-down Perspective for Referring Video Object Segmentation

Liang Chen, Yu Wu|arXiv (Cornell University)|2021. 06. 02.

Multimodal Machine Learning Applications참고 문헌 26인용 수 32

한 줄 요약

논문은 RVOS를 위한 상향식 두 단계 접근을 제안한다: 다-frame 인스턴스 세분화와 전파를 통해 포괄적 객체 트랙렛을 생성하고, 트랜스포머 기반 모듈로 트랙렛 위의 언어 참조를 접지하여 Referring Youtube-VOS에서 최첨단 결과를 달성한다.

ABSTRACT

Referring video object segmentation (RVOS) aims to segment video objects with the guidance of natural language reference. Previous methods typically tackle RVOS through directly grounding linguistic reference over the image lattice. Such bottom-up strategy fails to explore object-level cues, easily leading to inferior results. In this work, we instead put forward a two-stage, top-down RVOS solution. First, an exhaustive set of object tracklets is constructed by propagating object masks detected from several sampled frames to the entire video. Second, a Transformer-based tracklet-language grounding module is proposed, which models instance-level visual relations and cross-modal interactions simultaneously and efficiently. Our model ranks first place on CVPR2021 Referring Youtube-VOS challenge.

연구 동기 및 목표

전통적인 하향식(그리드 수준) 접지보다 RVOS에 대해 상향식, 객체 중심 접근 방식을 제안한다.
키 프레임을 마스킹하고 비디오 전반에 걸쳐 마스크를 전파하여 포괄적인 객체 트랙렛 세트를 구성한다.
중복 트랙렛을 효율적으로 제거하기 위한 트랙렛-NMS 메커니즘을 개발한다.
내부- 및 교차-모달 관계를 모델링하기 위해 트랜스포머 기반의 트랙렛-언어 접지 모듈을 제안한다.
Referring Youtube-VOS 챌린지에서 최첨단 성능을 입증한다.

제안 방법

K 개의 키 프레임에 인스턴스 세분화를 적용하여 O^k_n를 얻고 객체 후보를 생성한다.
각 후보 마스크를 전체 비디오로 전파하여 Γ^k_n 트랙렛을 형성한다.
트랙렛-IoU를 사용하여 트랙렛-NMS를 적용하고 상위 P개의 트랙렛을 후보로 선택한다.
프레임별 트랙렛 특징과 언어 특징을 추출한 뒤, 트랜스포머 접지 모듈을 사용해 프레임 간 트랙렛 점수를 계산한다.
프레임당 최다점수를 얻은 트랙렛을 선택하고 비디오 전체를 집계하여 최종 분할을 계산한다.
Eq. 6에 대해 이미지 수준 인코더(HTC/CondInst), CFBI+ 전파, ResNet-101/ BERT 기반 인코더 및 4-레이어 트랜스포머 접지 모듈을 사용한다.
학습은 COCO/RVOS-D 데이터에서 구성 요소를 프리트레이닝한 다음 RVOS-D에서 파인튜닝하고 최종 예측을 위해 모델 앙상블을 수행한다.
research_questions':['객체 수준의 상향식 접지가 바닥-업 그리드 수준 방법과 비교하여 RVOS의 성능을 향상시키는가?','트랙렛 생성과 트랙렛-언어 접지 모듈이 교차 모달 추론을 개선하는가?','Sequence-NMS 및 모델 앙상블이 최종 RVOS 성능에 어떤 영향을 미치는가?']
key_findings':['상향식 파이프라인이 객체 트랙렛과 트랜스포머 접지를 통해 Referring Youtube-VOS 도전적인 RVOS 벤치마크에서 최첨단 성능을 달성한다.','Tracklet-NMS가 중복을 줄이고 접지에 사용할 고품질 후보를 선택한다.','트랜스포머 기반 접지는 트랙렛 간 및 교차 모달 관계를 효과적으로 모델링하여 위치 지정과 세분화 정확도를 향상시킨다.','비디오 전파, 접지 및 시퀀스 수준 NMS의 점진적 개선을 보여 주어 벤치마크에서 최상의 결과를 얻는다.','모델 앙상블은 test-dev 및 test-challenge 세트에서 성능을 추가로 향상시킨다.'] ,
table_headers:[
Model
J&F
J
F

실험 결과

연구 질문

RQ1Can a top-down, object-level grounding framework outperform bottom-up approaches in RVOS?
RQ2Does tracklet construction plus a tracklet-language grounding module improve cross-modal reasoning?
RQ3What is the impact of Sequence-NMS and model ensemble on final RVOS performance?

주요 결과

Top-down pipeline with object tracklets and Transformer grounding achieves state-of-the-art performance on Referring Youtube-VOS challenging RVOS benchmarks.
Tracklet-NMS reduces redundancy and selects high-quality candidates for grounding.
Transformer-based grounding effectively models inter-tracklet and cross-modal relations, improving localization and segmentation accuracy.
Ablation experiments demonstrate progressive improvements from video propagation, grounding, and sequence-level NMS, culminating in the best reported results on the benchmarks.
Model ensemble further boosts performance across test-dev and test-challenge sets.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.