[논문 리뷰] EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language Understanding
EgoSchema는 Ego4D에서 파생된 매우 장기 형 영상 QA 벤치마크를 제시하며, 5000개 이상의 객관식 문제가 250시간의 에고센트릭 비디오에 걸쳐 있고, 시간 인증 집합을 사용하여 내재된 시간적 난이도를 분석합니다.
We introduce EgoSchema, a very long-form video question-answering dataset, and benchmark to evaluate long video understanding capabilities of modern vision and language systems. Derived from Ego4D, EgoSchema consists of over 5000 human curated multiple choice question answer pairs, spanning over 250 hours of real video data, covering a very broad range of natural human activity and behavior. For each question, EgoSchema requires the correct answer to be selected between five given options based on a three-minute-long video clip. While some prior works have proposed video datasets with long clip lengths, we posit that merely the length of the video clip does not truly capture the temporal difficulty of the video task that is being considered. To remedy this, we introduce temporal certificate sets, a general notion for capturing the intrinsic temporal understanding length associated with a broad range of video understanding tasks & datasets. Based on this metric, we find EgoSchema to have intrinsic temporal lengths over 5.7x longer than the second closest dataset and 10x to 100x longer than any other video understanding dataset. Further, our evaluation of several current state-of-the-art video and language models shows them to be severely lacking in long-term video understanding capabilities. Even models with several billions of parameters achieve QA accuracy less than 33% (random is 20%) on the EgoSchema multi-choice question answering task, while humans achieve about 76% accuracy. We posit that ame{}{}, with its long intrinsic temporal structures and diverse complexity, would serve as a valuable evaluation probe for developing effective long-term video understanding systems in the future. Data and Zero-shot model evaluation code are open-sourced for both public and commercial use under the Ego4D license at http://egoschema.github.io
연구 동기 및 목표
- EgoSchema를 소개합니다. 매우 긴 형식의 영상-언어 이해를 위한 진단 벤치마크.
- 클립 길이를 넘어선 내재적 시간적 난이도를 포착하기 위해 시간 인증 길이를 정의한다.
- 현재 최첨단 모델이 인간과 비교해 매우 긴 형식의 QA 작업에서 저성능임을 증명한다.
제안 방법
- LLM 프롬팅을 통해 QAW(QA triplets)을 생성하기 위해 밀도 있는 내레이션이 있는 3분 Ego4D 클립을 필터링하여 EgoSchema를 구성합니다.
- 장기적 추론에 중점을 두고 질문과 오답을 생성하기 위해 여러 프롬프트 전략(QAW-shot, Q(AW)-shot)을 사용합니다.
- 저품질 또는 근거가 없는 질문을 제거하기 위해 규칙 기반 및 LLM 기반 필터링을 적용하고 30초 최소 인증 길이를 보장하기 위한 두 차례의 수동 큐레이션을 수행합니다.
- 시간 인증을 올바른 답을 검증하는 데 필요한 최소 시퀀스(subclips)로 정의하고 클립별 인증 길이를 계산합니다.
- EgoSchema에서 다수의 비디오-언어 모델과 인간의 제로샷 QA 성능을 벤치마크합니다.

실험 결과
연구 질문
- RQ1시간 인증 길이로 측정된 EgoSchema의 내재적 시간적 난이도는 어느 정도인가요?
- RQ2최신 비디오-언어 모델은 EgoSchema에서 제로샷의 장기 형식 QA 작업에서 어떻게 수행하나요?
- RQ3다양한 시간/프레임 제약 하에서 인간의 성능은 매우 긴 형식의 비디오 QA에서 모델과 어떻게 비교되나요?
- RQ4현재 모델들이 인간에 비해 장기 비디오 이해에서 개선의 여지가 보이나요?
주요 결과
- EgoSchema의 중앙값 시간 인증 길이는 약 100초로, 두 번째로 긴 데이터셋보다 약 5배 길고, 다른 비디오 이해 데이터셋보다 10배에서 100배 더 깁니다.
- EgoSchema에서 수십억 매개변수 모델의 제로샷 QA 정확도는 33% 미만이며, 인간은 제약 없이 약 76%를 달성합니다.
- 평가된 여러 모델은 프레임 수가 많아질수록 정확도가 향상되다 약 30 프레임에서 포화되고 여전히 인간 성능에 못 미칩니다.
- 제한된 시간 제약하에서 인간의 성능은 1 fps 비디오에서도 약 67% 정확도에 도달하고, 비디오-투-텍스트 설정에서는 약 76%에 도달하여 모델과의 격차를 강조합니다.
- EgoSchema는 연구 및 상용 사용을 가능하게 하도록 Ego4D 라이선스 하에 공개적으로 배포될 예정입니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.