QUICK REVIEW

[논문 리뷰] DUT-LFSaliency: Versatile Dataset and Light Field-to-RGB Saliency Detection

Yongri Piao, Zhengkun Rong|arXiv (Cornell University)|2020. 12. 30.

Visual Attention and Saliency Detection참고 문헌 73인용 수 23

한 줄 요약

이 논문은 102개 클래스에 걸쳐 총 4,204개 샘플을 포함하는 대규모 라이트 필드 데이터셋(DUTLF-V2)인 DUT-LFSaliency를 소개하고, 라이트 필드에서 RGB로의 주목도 검출을 위한 비대칭 이중 스트림 네트워크를 제안한다. Focal 스트림은 특화된 모듈을 통해 포커스 슬라이스를 활용하여 데스크톱 환경에서 최고 성능을 달성하며, RGB 스트림은 세 가지 디스틸레이션 기반 설계를 통해 모델 크기를 83% 작게 하고 이식 속도를 5배 빠르게 하여 모바일 기기에서 뛰어난 성능을 발휘한다. 또한 기존 RGB 주목도 모델로의 전이 성능도 뛰어나다.

ABSTRACT

Light field data exhibit favorable characteristics conducive to saliency detection. The success of learning-based light field saliency detection is heavily dependent on how a comprehensive dataset can be constructed for higher generalizability of models, how high dimensional light field data can be effectively exploited, and how a flexible model can be designed to achieve versatility for desktop computers and mobile devices. To answer these questions, first we introduce a large-scale dataset to enable versatile applications for RGB, RGB-D and light field saliency detection, containing 102 classes and 4204 samples. Second, we present an asymmetrical two-stream model consisting of the Focal stream and RGB stream. The Focal stream is designed to achieve higher performance on desktop computers and transfer focusness knowledge to the RGB stream, relying on two tailor-made modules. The RGB stream guarantees the flexibility and memory/computation efficiency on mobile devices through three distillation schemes. Experiments demonstrate that our Focal stream achieves state-of-the-arts performance. The RGB stream achieves Top-2 F-measure on DUTLF-V2, which tremendously minimizes the model size by 83% and boosts FPS by 5 times, compared with the best performing method. Furthermore, our proposed distillation schemes are applicable to RGB saliency models, achieving impressive performance gains while ensuring flexibility.

연구 동기 및 목표

RGB, RGB-D, 라이트 필드 입력 간의 일반화를 지원하는 종합적이고 대규모의 라이트 필드 주목도 검출 데이터셋이 부족한 문제를 해결하기 위해.
고차원 라이트 필드 데이터를 효율적으로 활용하면서도 모바일 배포를 위해 저연산 및 저메모리 비용을 유지하는 모델을 설계하기 위해.
효과적인 디스틸레이션 기반 설계를 통해 라이트 필드 기반의 테이처 네트워크에서 경량 RGB 기반의 스타디언트 네트워크로 지식 전이를 가능하게 하기 위해.
데스크톱 환경에서 높은 성능를 유지하면서도 모바일 기기에서의 효율성과 유연성을 확보하는 통합 프레임워크를 개발하기 위해.

제안 방법

102개 카테고리에 걸쳐 실제 라이트 필드 샘플 총 4,204개를 포함하는 대규모 벤치마크인 DUTLF-V2를 제안한다. RGB, 깊이, 다중시점, 포커스 스택 데이터를 포함한다.
비대칭 이중 스트림 네트워크를 설계한다: Focal 스트림은 새로운 다중 포커스성 표현 모듈(MFRM)과 다중 포커스성 스크리닝 모듈(MFSM)을 사용하여 전체 라이트 필드 데이터를 처리함으로써 고성능을 달성한다.
세 가지 디스틸레이션 기반 설계—다중 포커스성 디스틸레이션(MFD), 주의력 기반 포커스성 디스틸레이션(AFD), 스크리닝된 포커스성 디스틸레이션(SFD)—을 활용해 Focal 스트림에서 RGB 기반 스타디언트 네트워크로 지식 전이를 수행한다.
스타디언트 네트워크는 포커스 슬라이스가 필요 없이 오직 RGB 입력에서만 훈련되며, 최소한의 파라미터 오버헤드로 높은 효율성을 달성한다.
스터디 네트워크에 추가적인 계산 비용을 거의 유발하지 않는 경량이며 파라미터 효율적인 모듈을 도입한다.
기존 RGB 주목도 모델들(R3Net, SCRN, CPD 등)에 디스틸레이션 기반 설계를 적용하여 아키텍처 변경 없이도 전이 성능과 성능 향상을 입증한다.

실험 결과

연구 질문

RQ1다양하고 대규모의 라이트 필드 데이터셋이 RGB, RGB-D, 라이트 필드 입력 간의 일반화를 향상시키는 데 기여할 수 있는가?
RQ2고차원 라이트 필드 데이터는 데스크톱 시스템에서 주목도 검출 성능 향상에 어떻게 효과적으로 활용될 수 있는가?
RQ3라이트 필드 기반 테이처 네트워크에서 유의미한 지식을 경량 RGB 기반 스타디언트 네트워크로 전이할 수 있는가? 이는 고정밀도를 유지하면서도 모바일 배포를 가능하게 하는가?
RQ4디스틸레이션 기반 설계는 기존 RGB 주목도 모델의 성능을 모델 크기나 추론 비용 증가 없이 얼마나 향상시킬 수 있는가?
RQ5포커스 슬라이스에서 단일 RGB 이미지로의 포커스성 지식 전이 시 성능와 효율성 간의 상호 보완적 트레이드오프는 어떠한가?

주요 결과

Focal 스트림은 DUTLF-V2 벤치마크에서 최고 성능를 기록하며, MFRM 및 MFSM 모듈이 다중 포커스성 신호를 효과적으로 활용함을 입증한다.
RGB 스트림은 DUTLF-V2에서 Top-2 F-measure 성능를 달성하였으며, 기존 최고 성능를 기록한 방법 대비 모델 크기를 83% 줄이고 추론 속도를 5배 빠르게 하였다.
제안된 디스틸레이션 기반 설계(MFD, AFD, SFD)는 기존 RGB 주목도 모델의 성능을 크게 향상시켰으며, R3Net에 적용했을 때 HFUT-LFSD에서 MAE가 13.8% 감소하였다.
추가 파라미터 없음 설정은 SFD를 기존 모델에 직접 통합할 수 있게 하여 아키텍처 변경 없이도 강건성과 일관성을 향상시켰다.
소량의 추가 파라미터 설정은 세 가지 디스틸레이션 기반 설계를 모두 조합하여 가장 큰 성능 향상을 이끌어내었으며, 심지어 최소한의 아키텍처 수정만으로도 상당한 성능 향상을 이룰 수 있음을 보여주었다.
시각적 비교 결과, 디스틸레이션 기반 설계가 특히 작은 또는 유사한 주목도 객체를 포함한 도전적인 시나리오에서 더 정확하고 일관성 있는 주목도 맵을 생성함을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.