Skip to main content
QUICK REVIEW

[논문 리뷰] EPIC-KITCHENS-100

Dima Damen, Davide Moltisanti|Explore Bristol Research|2020. 01. 01.
Video Surveillance and Tracking Methods참고 문헌 129인용 수 102
한 줄 요약

EPIC-KITCHENS-100은 가장 큰 에고시네틱 비전 데이터셋을 100시간으로 확장하고 더 조밀한 다중 작업 주석으로 행동 인식, 감지, 예측, 교차 모달 검색 및 비지도 도메인 적응 벤치마크를 가능하게 한다.

ABSTRACT

Extended Footage for EPIC-KITCHENS dataset, to 100 hours of footage. For automatic annotations, see separate dataset at: https://doi.org/10.5523/bris.3l8eci2oqgst92n14w2yqi5ytu 10/09/2020 **N.b. please also see ERRATUM published at https://github.com/epic-kitchens/epic-kitchens-100-annotations/blob/master/README.md#erratum**

연구 동기 및 목표

  • 45개 환경에 걸친 100시간의 비대본(unscripted) 에고센트릭 비디오로 EPIC-KITCHENS를 확장한다.
  • 미세한 행동에 대한 더 조밀하고 완전한 주석 파이프라인을 제공한다.
  • 다중 벤치마크(행동 인식, 행동 감지, 예측, 검색, 비지도 도메인 적응)를 기준선과 지표와 함께 활성화하고 정의한다.
  • 시간에 따른 일반화 및 도메인 차이(시간의 시험)와 추가 데이터에 의한 확장성을 조사한다.

제안 방법

  • 행동 주석을 고밀도로 만들기 위한 확장 가능한 내레이션 기반 주석 파이프라인(pause-and-talk)을 도입한다.
  • 동사/명사 분류 체계를 재해석하고 정제하여 중복이 최소인 클래스로 군집화한다.
  • 더 큰 규모의 crowd-sourced 주석자 구성과 품질 관리 체계를 통해 행동 구간의 시간 경계를 주석하고 품질 관리.
  • Mask R-CNN 및 손-물체 상호작용 탐지기를 이용하여 주석에 자동 공간 사전 정보를 보강한다.
  • 기초선과 지표를 갖춘 여섯 가지 도전을 정의하고 재현성을 위한 스크립트 및 모델을 공개한다.
  • 보이지 않는 참가자와 tail 클래스가 포함된 Train/Val/Test 데이터 분할을 수행하여 일반화를 강조한다.
Figure 1: Left: Frames from EPIC-KITCHENS-100 showcasing returning participants with returning or changing kitchens (top) as well as new participants (bottom). Right: Comparisons between recordings from [1] and newly collected videos, with selected frames showcasing the same action. Note object loca
Figure 1: Left: Frames from EPIC-KITCHENS-100 showcasing returning participants with returning or changing kitchens (top) as well as new participants (bottom). Right: Comparisons between recordings from [1] and newly collected videos, with selected frames showcasing the same action. Note object loca

실험 결과

연구 질문

  • RQ1더 조밀하고 다층적인 주석이 에고센트릭 영상에서 행동의 세분화와 다운스트림 작업 성능을 얼마나 향상시키는가?
  • RQ2EPIC-KITCHENS-55/이전 데이터로 학습된 모델이 EPIC-KITCHENS-100으로 일반화하는 방식은 어떠하며, unseen 참가자와 환경을 포함하는가(시간의 시험)?
  • RQ3이 대본 없는 데이터셋에서 비지도 도메인 적응과 약지도 감독이 행동 인식 및 감지에 미치는 영향은 무엇인가?
  • RQ4EPIC-KITCHENS-100에서 행동 인식, 감지, 예측, 교차 모달 검색 및 도메인 적응의 기본 성능은 무엇인가?
  • RQ5새롭고 다양한 데이터를 추가하는 것이 도메인 간 격차에 걸친 확장성과 일반화에 어떤 영향을 미치는가?

주요 결과

  • EPIC-KITCHENS-100은 100 hours, 700 videos, 그리고 4,053개의 행동 클래스(동사, 명사, 및 행동) 전반에 걸쳐 89,977개의 세밀한 행동 세그먼트를 포함한다.
  • 새로운 주석 파이프라인은 이전 판보다 분당 54% 더 많은 행동과 128% 더 많은 행동 세그먼트를 산출한다.
  • 동사(97개 클래스)와 명사(300개 클래스)는 긴 꼬리 분포를 보이며 새로 수집된 비디오에 많은 새로운 클래스가 나타난다.
  • 보이지 않는 참가자와 꼬리 클래스 평가은 도메인 격차와 다양한 데이터 및 일반화를 위한 강건한 모델의 필요성을 보여준다.
  • 행동 감지는 여전히 도전적이며, IoU 임계값이 높아질수록 평균정밀도(mAP)가 일반적으로 낮아져 겹침, 길고 다양한 길이의 행동의 복잡성을 강조한다.
  • 데이터셋은 강한/약한 감독의 행동 인식, 행동 감지, 예측, 검색, 비지도 도메인 적응을 포함한 여섯 벤치마크를 가능하게 하며, 공개된 기본선 및 평가 스크립트가 제공된다.
Figure 2: Annotation pipeline: (a) narrator, (b) transcriber, (c) temporal segment annotator and (d) dependency parser. Red arrows show AMT crowdsourcing of annotations.
Figure 2: Annotation pipeline: (a) narrator, (b) transcriber, (c) temporal segment annotator and (d) dependency parser. Red arrows show AMT crowdsourcing of annotations.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.