Skip to main content
QUICK REVIEW

[논문 리뷰] SEP-YOLO: Fourier-Domain Feature Representation for Transparent Object Instance Segmentation

Fan Zhang, Tao Yan|arXiv (Cornell University)|2026. 03. 03.
Advanced Neural Network Applications인용 수 0
한 줄 요약

SEP-YOLO는 주파수 도메인 상세 향상 모듈(FDDEM)과 다중 스케일 정제 스트림으로 투명 물체 인스턴스 분할을 향상시키는 이중 도메인 프레임워크를 도입하여 Trans10K와 GVD에서 실시간 속도로 SOTA 성능을 달성한다.

ABSTRACT

Transparent object instance segmentation presents significant challenges in computer vision, due to the inherent properties of transparent objects, including boundary blur, low contrast, and high dependence on background context. Existing methods often fail as they depend on strong appearance cues and clear boundaries. To address these limitations, we propose SEP-YOLO, a novel framework that integrates a dual-domain collaborative mechanism for transparent object instance segmentation. Our method incorporates a Frequency Domain Detail Enhancement Module, which separates and enhances weak highfrequency boundary components via learnable complex weights. We further design a multi-scale spatial refinement stream, which consists of a Content-Aware Alignment Neck and a Multi-scale Gated Refinement Block, to ensure precise feature alignment and boundary localization in deep semantic features. We also provide high-quality instance-level annotations for the Trans10K dataset, filling the critical data gap in transparent object instance segmentation. Extensive experiments on the Trans10K and GVD datasets show that SEP-YOLO achieves state-of-the-art (SOTA) performance.

연구 동기 및 목표

  • 투명 물체 인스턴스 분할에서 경계 흐림과 대조 저하를 해결한다.
  • 주파수 도메인 처리를 활용하여 약한 경계 신호를 향상시킨다.
  • 깊은 특징에서 경계 세부 정보를 보존하기 위해 교차 스케일 특징 융합 및 정렬을 개발한다.
  • Trans10K를 위한 고품질 인스턴스 수준 주석을 제공하여 작업을 지원한다.

제안 방법

  • 경계 관련 고주파 성분을 강화하기 위해 FFT 공간에서 학습 가능한 복소 가중치를 갖는 FDDEM.
  • 다중 스케일 게이팅 유닛과 MSDWConv를 갖춘 MS-GRB로 교차 스케일 정제 및 노이즈 억제.
  • 경계 세부 정보를 보존하기 위해 다운샘플링에는 선형 변형 가능한 컨볼루션을, 적응형 업샘플링에는 DySample을 사용하는 Content-Aware Alignment Neck (CA2-Neck).
  • 적응 가중치를 위한 이중 주의 메커니즘으로 주파수 강화 특징과 공간 특징을 통합하여 가중치를 조정한다.

실험 결과

연구 질문

  • RQ1투명 물체의 고주파 경계 세부 정보를 공간 도메인 한계 이상으로 어떻게 향상시킬 수 있는가?
  • RQ2교차 스케일 정제와 결합된 주파수 도메인 처리가 투명 물체의 인스턴스 수준 분할을 향상시킬 수 있는가?
  • RQ3고급 정렬 및 업샘플링 메커니즘이 피라미드 특징에서의 경계 불일치를 줄일 수 있는가?
  • RQ4제안된 구성요소들로 투명 물체 벤치마크(Trans10K 및 GVD)에서 어떤 성능 향상을 달성할 수 있는가?
  • RQ5고품질 Trans10K 인스턴스 수준 주석 추가가 모델 성능에 어떤 영향을 미치는가?

주요 결과

  • SEP-YOLO는 Trans10K와 GVD에서 박스 및 마스크 mAP 지표에서 최첨단 성능을 달성했다.
  • FDDEM 추가로 기반 YOLO11 대비 Trans10K Box mAP50이 0.816에서 0.836으로, Mask mAP50이 0.813에서 0.833으로 향상됐다.
  • MS-GRB와 CA2-Neck를 도입하면 추가 이득이 있으며, SEP-YOLO은 Trans10K에서 Box mAP50 0.852, Mask mAP50 0.851에 도달했다.
  • GVD에서 SEP-YOLO은 Box mAP50 0.882, Mask mAP50 0.872를 달성했고 매개변수 2.98M, FPS 88.
  • 특성요소 제거 실험은 발전적 개선을 보이며: 기본 YOLO11 -> +FDDEM -> +MS-GRB -> +CA2-Neck -> SEP-YOLO, Trans10K 및 GVD에서.
  • SEP-YOLO은 경량 아키텍처와 실시간 추론을 유지하면서 투명 물체에 대한 분할 정확도에서 상당한 이득을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.