QUICK REVIEW

[논문 리뷰] How Do Optical Flow and Textual Prompts Collaborate to Assist in Audio-Visual Semantic Segmentation?

Lee, Yujian, Gao, Peng|arXiv (Cornell University)|2026. 01. 13.

Speech and Audio Processing인용 수 0

한 줄 요약

SSP는 optical-flow 기반 프리-마스크를 두 개의 텍스트 프롬프트와 시각-텍스트 정렬 모듈과 결합하여 오디오-비주얼 시맨틱 세분화를 향상시키고 AVSS 벤치마크에서 최신 성능을 달성한다.

ABSTRACT

Audio-visual semantic segmentation (AVSS) represents an extension of the audio-visual segmentation (AVS) task, necessitating a semantic understanding of audio-visual scenes beyond merely identifying sound-emitting objects at the visual pixel level. Contrary to a previous methodology, by decomposing the AVSS task into two discrete subtasks by initially providing a prompted segmentation mask to facilitate subsequent semantic analysis, our approach innovates on this foundational strategy. We introduce a novel collaborative framework, extit{S}tepping extit{S}tone extit{P}lus (SSP), which integrates optical flow and textual prompts to assist the segmentation process. In scenarios where sound sources frequently coexist with moving objects, our pre-mask technique leverages optical flow to capture motion dynamics, providing essential temporal context for precise segmentation. To address the challenge posed by stationary sound-emitting objects, such as alarm clocks, SSP incorporates two specific textual prompts: one identifies the category of the sound-emitting object, and the other provides a broader description of the scene. Additionally, we implement a visual-textual alignment module (VTA) to facilitate cross-modal integration, delivering more coherent and contextually relevant semantic interpretations. Our training regimen involves a post-mask technique aimed at compelling the model to learn the diagram of the optical flow. Experimental results demonstrate that SSP outperforms existing AVS methods, delivering efficient and precise segmentation results.

연구 동기 및 목표

모션 큐와 텍스트 맥락을 활용하여 소리를 만들어내는 물체를 더 잘 식별하기 위해 AVSS를 개선하도록 동기를 부여한다.
AVSS를 프리 마스크 단계와 시맨틱 분석 단계로 분해하여 모션 정보를 활용한다.
세분화 중 마스크 생성을 안내하기 위한 보조 프롬프트로 광학 흐름을 도입한다.
정지 소스의 처리와 교차 모달 통합을 다루기 위해 이중 텍스트 프롬프트와 시각-텍스트 정렬 모듈을 도입한다.

제안 방법

인코딩 전에 세분화를 정제하기 위해 광학 흐름으로 도출된 마스크와 GT 마스크를 결합한 프리-마스크 기법을 제안한다.
다중 모달 LLM에 의해 생성된 이중 텍스트 프롬프트를 사용하여 장면 설명과 잠재적 정지 소리를 포착한다.
다중 모달 간 시각적 및 텍스트형 특징을 융합하기 위해 BERT 기반의 시각-텍스트 정렬(VTA) 모듈을 구현한다.
학습 중 GT 마스크를 넘어 동적 특성과 소리 관련 특징을 학습하도록 포스트-마스크 손실을 추가한다.
마스크, 다이스, BCE 손실을 포함한 공동 훈련 목표를 채택하고 일반화를 개선하기 위한 보조 Lprime_mask 손실을 추가한다.

실험 결과

연구 질문

RQ1동적 프롬프트와 결합될 때 프리-마스크로서의 광학 흐름이 AVSS 세분화를 개선할 수 있는가?
RQ2이중 텍스트 프롬프트와 VTA가 교차 모달 정렬과 세분화 품질에 어떤 영향을 미치는가?
RQ3추론 시 GT 마스크가 사용할 수 없을 때 포스트-마스크 학습 목표가 강건성을 향상시키는가?
RQ4S4, MS3, AVSS 데이터셋에서 SSP의 최신 AVS/AVSS 모델 대비 비교 성능은 어떠한가?

주요 결과

방법	오디오 백본	비주얼 백본	S4 mIoU	S4 F-score	MS3 mIoU	MS3 F-score	AVSS mIoU	AVSS F-score
AAVS [ 29 ]	VGGish	Swin-Base	83.2	91.3	67.3	77.6	48.5	53.2
SSP	VGGish	Swin-Base	85.4	93.3	72.3	84.6	50.1	54.5

SSP는 S4에서 강력한 AVS 기본 모델(AAVS)보다 mIoU 2.2%, F-score 1.9% 향상시켰다.
MS3에서 AAVS보다 mIoU 5.0%, F-score 7.0% 향상시켰다.
AVSS에서 AAVS보다 mIoU 1.6%, F-score 1.3% 향상시켰다.
VTA 모듈은 대안들에 비해 평균적으로 mIoU를 약 1.1% 증가시키고 F-score를 0.5% 증가시킨다.
특성분해 결과에서 광학 흐름이 포함된 프리-마스크가 주목할 만한 이점을 제공하며, 프리-마스크와 포스트-마스크, VTA를 결합하면 최신 성능에 더 근접한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.