QUICK REVIEW

[논문 리뷰] EPIC-KITCHENS-100

Dima Damen, Davide Moltisanti|Explore Bristol Research|2020. 01. 01.

Video Surveillance and Tracking Methods참고 문헌 129인용 수 102

한 줄 요약

EPIC-KITCHENS-100은 가장 큰 에고시네틱 비전 데이터셋을 100시간으로 확장하고 더 조밀한 다중 작업 주석으로 행동 인식, 감지, 예측, 교차 모달 검색 및 비지도 도메인 적응 벤치마크를 가능하게 한다.

ABSTRACT

Extended Footage for EPIC-KITCHENS dataset, to 100 hours of footage. For automatic annotations, see separate dataset at: https://doi.org/10.5523/bris.3l8eci2oqgst92n14w2yqi5ytu 10/09/2020 **N.b. please also see ERRATUM published at https://github.com/epic-kitchens/epic-kitchens-100-annotations/blob/master/README.md#erratum**

연구 동기 및 목표

45개 환경에 걸친 100시간의 비대본(unscripted) 에고센트릭 비디오로 EPIC-KITCHENS를 확장한다.
미세한 행동에 대한 더 조밀하고 완전한 주석 파이프라인을 제공한다.
다중 벤치마크(행동 인식, 행동 감지, 예측, 검색, 비지도 도메인 적응)를 기준선과 지표와 함께 활성화하고 정의한다.
시간에 따른 일반화 및 도메인 차이(시간의 시험)와 추가 데이터에 의한 확장성을 조사한다.

제안 방법

행동 주석을 고밀도로 만들기 위한 확장 가능한 내레이션 기반 주석 파이프라인(pause-and-talk)을 도입한다.
동사/명사 분류 체계를 재해석하고 정제하여 중복이 최소인 클래스로 군집화한다.
더 큰 규모의 crowd-sourced 주석자 구성과 품질 관리 체계를 통해 행동 구간의 시간 경계를 주석하고 품질 관리.
Mask R-CNN 및 손-물체 상호작용 탐지기를 이용하여 주석에 자동 공간 사전 정보를 보강한다.
기초선과 지표를 갖춘 여섯 가지 도전을 정의하고 재현성을 위한 스크립트 및 모델을 공개한다.
보이지 않는 참가자와 tail 클래스가 포함된 Train/Val/Test 데이터 분할을 수행하여 일반화를 강조한다.

Figure 1: Left: Frames from EPIC-KITCHENS-100 showcasing returning participants with returning or changing kitchens (top) as well as new participants (bottom). Right: Comparisons between recordings from [1] and newly collected videos, with selected frames showcasing the same action. Note object loca

실험 결과

연구 질문

RQ1더 조밀하고 다층적인 주석이 에고센트릭 영상에서 행동의 세분화와 다운스트림 작업 성능을 얼마나 향상시키는가?
RQ2EPIC-KITCHENS-55/이전 데이터로 학습된 모델이 EPIC-KITCHENS-100으로 일반화하는 방식은 어떠하며, unseen 참가자와 환경을 포함하는가(시간의 시험)?
RQ3이 대본 없는 데이터셋에서 비지도 도메인 적응과 약지도 감독이 행동 인식 및 감지에 미치는 영향은 무엇인가?
RQ4EPIC-KITCHENS-100에서 행동 인식, 감지, 예측, 교차 모달 검색 및 도메인 적응의 기본 성능은 무엇인가?
RQ5새롭고 다양한 데이터를 추가하는 것이 도메인 간 격차에 걸친 확장성과 일반화에 어떤 영향을 미치는가?

주요 결과

EPIC-KITCHENS-100은 100 hours, 700 videos, 그리고 4,053개의 행동 클래스(동사, 명사, 및 행동) 전반에 걸쳐 89,977개의 세밀한 행동 세그먼트를 포함한다.
새로운 주석 파이프라인은 이전 판보다 분당 54% 더 많은 행동과 128% 더 많은 행동 세그먼트를 산출한다.
동사(97개 클래스)와 명사(300개 클래스)는 긴 꼬리 분포를 보이며 새로 수집된 비디오에 많은 새로운 클래스가 나타난다.
보이지 않는 참가자와 꼬리 클래스 평가은 도메인 격차와 다양한 데이터 및 일반화를 위한 강건한 모델의 필요성을 보여준다.
행동 감지는 여전히 도전적이며, IoU 임계값이 높아질수록 평균정밀도(mAP)가 일반적으로 낮아져 겹침, 길고 다양한 길이의 행동의 복잡성을 강조한다.
데이터셋은 강한/약한 감독의 행동 인식, 행동 감지, 예측, 검색, 비지도 도메인 적응을 포함한 여섯 벤치마크를 가능하게 하며, 공개된 기본선 및 평가 스크립트가 제공된다.

Figure 2: Annotation pipeline: (a) narrator, (b) transcriber, (c) temporal segment annotator and (d) dependency parser. Red arrows show AMT crowdsourcing of annotations.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.