Skip to main content
QUICK REVIEW

[논문 리뷰] EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations

Ahmad Darkhalil, Dandan Shan|arXiv (Cornell University)|2022. 09. 26.
Visual Attention and Saliency Detection인용 수 24
한 줄 요약

VISOR는 EPIC-KITCHENS 비디오에서 손 및 활성 객체의 픽셀 단위 분할을 도입하고, 장기적인 자가시점 이해를 위해 세 가지 벤치마크—Semi-Supervised Video Object Segmentation, Hand Object Segmentation Relations, 및 Where Did This Come From—를 정의한다.

ABSTRACT

We introduce VISOR, a new dataset of pixel annotations and a benchmark suite for segmenting hands and active objects in egocentric video. VISOR annotates videos from EPIC-KITCHENS, which comes with a new set of challenges not encountered in current video segmentation datasets. Specifically, we need to ensure both short- and long-term consistency of pixel-level annotations as objects undergo transformative interactions, e.g. an onion is peeled, diced and cooked - where we aim to obtain accurate pixel-level annotations of the peel, onion pieces, chopping board, knife, pan, as well as the acting hands. VISOR introduces an annotation pipeline, AI-powered in parts, for scalability and quality. In total, we publicly release 272K manual semantic masks of 257 object classes, 9.9M interpolated dense masks, 67K hand-object relations, covering 36 hours of 179 untrimmed videos. Along with the annotations, we introduce three challenges in video object segmentation, interaction understanding and long-term reasoning. For data, code and leaderboards: http://epic-kitchens.github.io/VISOR

연구 동기 및 목표

  • 자가시점 비디오에서 손-객체 상호작용의 장기적이고 미세한 이해를 촉진한다.
  • EPIC-KITCHENS 동작과 맞춰 손, 활성 객체, 손-객체 관계의 조밀한 픽셀 수준 주석을 제공한다.
  • AI 보조 도구와 수동 품질 관리를 결합한 주석 파이프라인을 개발하여 확장 가능하고 고품질 마스크를 얻는다.
  • 짧은 기간 내 변화 추적, 손-객체 접촉 추론, 장기 출처 추적을 평가하는 벤치마크를 만든다.

제안 방법

  • 세 가지 행동 구간의 시퀀스에서 시간적 일관성을 최대화하도록 프레임을 선택하고, 각 액션 프레임에 대해 활성 객체에 의미 레이블을 주석화한다.
  • AI 기반의 대화형 분할 도구(TORAS)를 사용해 픽셀 수준의 마스크 생성을 가속하고, 그 다음 수동 품질 점검과 규칙 기반 일관성 확보를 수행한다.
  • 희박한 주석을 보간해 품질 지표를 기반으로 가지치기를 하며 순방향/역방향 전파를 통해 밀집 마스크를 생성한다.
  • EPIC-KITCHENS의 명사를 클러스터링하고 확장해 VISOR의 257 엔티티 클래스(손과 손에 착용한 장갑 포함)를 커버하고, 손 관련 관계(접촉, 측면)도 추가한다.
  • 손-객체 관계를 손(및 장갑)을 접촉된 객체와 연결해 주석화하고, 충분성(포괄성)과 가림 현상을 표시해 견고한 벤치마킹을 돕는다.

실험 결과

연구 질문

  • RQ1자가시점 주방 비디오에서 객체 분할의 긴 시퀀스를 행동 간 안정적으로 추적할 수 있는가?
  • RQ2단일 프레임 및 짧은 시퀀스에서 손-객체 접촉 및 활성 객체 관계를 얼마나 효과적으로 분할하고 정량화할 수 있는가?
  • RQ3긴 기간의 시각적 추론이 나중에 비디오에서 관찰된 객체의 기원이나 출처를 얼마나 식별할 수 있는가?
  • RQ4VISOR의 VOS, HOS, WDTCF 벤치마크의 새로운 도전과제와 기준은 무엇인가?

주요 결과

  • VISOR는 잘라내지 않은 EPIC-KITCHENS 비디오 36시간에 걸쳐 손, 활성 객체, 257 엔티티 클래스에 대한 픽셀 수준 마스크와 조밀한 보간의 대규모 세트를 제공한다.
  • 세 가지 벤치마크가 정의된다: 더 긴 시퀀스에 걸친 Semi-Supervised Video Object Segmentation, 손-객체 접촉을 위한 Hand Object Segmentation 관계, 그리고 WDTCF로 긴 시간에 걸쳐 물체를 원래 컨테이너로 추적한다.
  • VOS의 기본 STM은 VISOR 데이터에 대한 사전 학습 vs 미세 조정의 영향을 보여주며, VISOR 특화 미세 조정이 상당한 이득을 주는 반면 보지 못한 주방에서의 일반화는 여전히 도전적이다.
  • 손 분할은 안정적이지만 접촉 상태 예측과 정확한 손-객체 연관성 예측은 가림, 다양한 객체 유형, 객체 범주들의 긴 꼬리 분포로 인해 여전히 어렵다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.