QUICK REVIEW

[논문 리뷰] EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations

Ahmad Darkhalil, Dandan Shan|arXiv (Cornell University)|2022. 09. 26.

Visual Attention and Saliency Detection인용 수 24

한 줄 요약

VISOR는 EPIC-KITCHENS 비디오에서 손 및 활성 객체의 픽셀 단위 분할을 도입하고, 장기적인 자가시점 이해를 위해 세 가지 벤치마크—Semi-Supervised Video Object Segmentation, Hand Object Segmentation Relations, 및 Where Did This Come From—를 정의한다.

ABSTRACT

We introduce VISOR, a new dataset of pixel annotations and a benchmark suite for segmenting hands and active objects in egocentric video. VISOR annotates videos from EPIC-KITCHENS, which comes with a new set of challenges not encountered in current video segmentation datasets. Specifically, we need to ensure both short- and long-term consistency of pixel-level annotations as objects undergo transformative interactions, e.g. an onion is peeled, diced and cooked - where we aim to obtain accurate pixel-level annotations of the peel, onion pieces, chopping board, knife, pan, as well as the acting hands. VISOR introduces an annotation pipeline, AI-powered in parts, for scalability and quality. In total, we publicly release 272K manual semantic masks of 257 object classes, 9.9M interpolated dense masks, 67K hand-object relations, covering 36 hours of 179 untrimmed videos. Along with the annotations, we introduce three challenges in video object segmentation, interaction understanding and long-term reasoning. For data, code and leaderboards: http://epic-kitchens.github.io/VISOR

연구 동기 및 목표

자가시점 비디오에서 손-객체 상호작용의 장기적이고 미세한 이해를 촉진한다.
EPIC-KITCHENS 동작과 맞춰 손, 활성 객체, 손-객체 관계의 조밀한 픽셀 수준 주석을 제공한다.
AI 보조 도구와 수동 품질 관리를 결합한 주석 파이프라인을 개발하여 확장 가능하고 고품질 마스크를 얻는다.
짧은 기간 내 변화 추적, 손-객체 접촉 추론, 장기 출처 추적을 평가하는 벤치마크를 만든다.

제안 방법

세 가지 행동 구간의 시퀀스에서 시간적 일관성을 최대화하도록 프레임을 선택하고, 각 액션 프레임에 대해 활성 객체에 의미 레이블을 주석화한다.
AI 기반의 대화형 분할 도구(TORAS)를 사용해 픽셀 수준의 마스크 생성을 가속하고, 그 다음 수동 품질 점검과 규칙 기반 일관성 확보를 수행한다.
희박한 주석을 보간해 품질 지표를 기반으로 가지치기를 하며 순방향/역방향 전파를 통해 밀집 마스크를 생성한다.
EPIC-KITCHENS의 명사를 클러스터링하고 확장해 VISOR의 257 엔티티 클래스(손과 손에 착용한 장갑 포함)를 커버하고, 손 관련 관계(접촉, 측면)도 추가한다.
손-객체 관계를 손(및 장갑)을 접촉된 객체와 연결해 주석화하고, 충분성(포괄성)과 가림 현상을 표시해 견고한 벤치마킹을 돕는다.

실험 결과

연구 질문

RQ1자가시점 주방 비디오에서 객체 분할의 긴 시퀀스를 행동 간 안정적으로 추적할 수 있는가?
RQ2단일 프레임 및 짧은 시퀀스에서 손-객체 접촉 및 활성 객체 관계를 얼마나 효과적으로 분할하고 정량화할 수 있는가?
RQ3긴 기간의 시각적 추론이 나중에 비디오에서 관찰된 객체의 기원이나 출처를 얼마나 식별할 수 있는가?
RQ4VISOR의 VOS, HOS, WDTCF 벤치마크의 새로운 도전과제와 기준은 무엇인가?

주요 결과

VISOR는 잘라내지 않은 EPIC-KITCHENS 비디오 36시간에 걸쳐 손, 활성 객체, 257 엔티티 클래스에 대한 픽셀 수준 마스크와 조밀한 보간의 대규모 세트를 제공한다.
세 가지 벤치마크가 정의된다: 더 긴 시퀀스에 걸친 Semi-Supervised Video Object Segmentation, 손-객체 접촉을 위한 Hand Object Segmentation 관계, 그리고 WDTCF로 긴 시간에 걸쳐 물체를 원래 컨테이너로 추적한다.
VOS의 기본 STM은 VISOR 데이터에 대한 사전 학습 vs 미세 조정의 영향을 보여주며, VISOR 특화 미세 조정이 상당한 이득을 주는 반면 보지 못한 주방에서의 일반화는 여전히 도전적이다.
손 분할은 안정적이지만 접촉 상태 예측과 정확한 손-객체 연관성 예측은 가림, 다양한 객체 유형, 객체 범주들의 긴 꼬리 분포로 인해 여전히 어렵다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.