[논문 리뷰] VideoSTF: Stress-Testing Output Repetition in Video Large Language Models
VideoSTF는 VideoLLMs에서 출력 반복을 측정하기 위해 세 가지 n-그램 기반 지표를 도입하고, 시간적 스트레스 요인을 갖춘 10,000비디오 테스트베드를 제공하며, 10개의 VideoLLMs에 걸쳐 만연하고 시간적으로 민감한 반복 및 취약한 블랙박스 공격을 입증한다.
Video Large Language Models (VideoLLMs) have recently achieved strong performance in video understanding tasks. However, we identify a previously underexplored generation failure: severe output repetition, where models degenerate into self-reinforcing loops of repeated phrases or sentences. This failure mode is not captured by existing VideoLLM benchmarks, which focus primarily on task accuracy and factual correctness. We introduce VideoSTF, the first framework for systematically measuring and stress-testing output repetition in VideoLLMs. VideoSTF formalizes repetition using three complementary n-gram-based metrics and provides a standardized testbed of 10,000 diverse videos together with a library of controlled temporal transformations. Using VideoSTF, we conduct pervasive testing, temporal stress testing, and adversarial exploitation across 10 advanced VideoLLMs. We find that output repetition is widespread and, critically, highly sensitive to temporal perturbations of video inputs. Moreover, we show that simple temporal transformations can efficiently induce repetitive degeneration in a black-box setting, exposing output repetition as an exploitable security vulnerability. Our results reveal output repetition as a fundamental stability issue in modern VideoLLMs and motivate stability-aware evaluation for video-language systems. Our evaluation code and scripts are available at: https://github.com/yuxincao22/VideoSTF_benchmark.
연구 동기 및 목표
- VideoLLMs에서 반복을 고유한 생성 안정성 실패 모드로 식별한다.
- 표준화된 지표와 테스트베드로 반복을 측정, 스트레스 테스트, 분석하기 위한 VideoSTF를 개발한다.
- 다양한 VideoLLMs에 걸친 시간적 섭동이 반복에 미치는 영향을 평가한다.
- 간단한 시간적 변환이 블랙박스 공격으로 작동할 수 있는 적대적 가능성을 시연한다.
제안 방법
- 세 가지 보완적인 n-그램 지표인 Repetition Rate(RR), Repetition Intensity(RI), Information Entropy(IE)를 사용하여 반복을 형식화한다.
- 공개 데이터셋에서 다양한 길이와 내용을 가진 10,000개의 비디오로 표준화된 테스트베드를 만든다.
- 반복을 스트레스 테스트하기 위한 Add, Delete, Replace, Reverse, Shuffle 변환으로 시간적 스트레스 요소 라이브러리를 개발한다.
- 결정론적 디코딩 하에 10개의 대표적인 VideoLLMs에 대해 보편적 테스트, 시간적 스트레스 테스트 및 적대적 활용을 수행한다.
- 의미 콘텐츠를 보존하면서 시간적 변환이 반복에 어떤 영향을 미치는지 분석한다.
- 복제를 위한 오픈 소스 평가 도구 키트와 스크립트를 제공한다.
실험 결과
연구 질문
- RQ1현대의 VideoLLMs 전반에 걸쳐 출력 반복이 만연한 생성 안정성 이슈인가?
- RQ2제어된 시간적 섭동이 VideoLLMs의 반복에 어떤 영향을 미치는가?
- RQ3시간적 변환이 블랙박스 공격으로 사용되어 VideoLLMs의 반복적 저하를 유발할 수 있는가?
- RQ4다른 모델 아키텍처와 베이스라인 간 반복의 상대 심각도는 무엇인가?
- RQ5작업 정확도와 사실성을 넘어 반복을 가장 잘 포착하는 진단 프레임워크는 무엇인가?
주요 결과
- 출력 반복은 기저 LLM과 무관하게 10개의 VideoLLMs 전반에 만연하다.
- 시간적 변환은 반복을 크게 증폭시키며, 일부 사례에서 90%를 넘는 반복률을 보인다.
- 시간적 섭동은 효율적인 블랙박스 공격으로 작용하여 짧은 질의 수로 반복을 유발한다(높은 ASR, 낮은 AQ).
- 모델이 비디오 전용 또는 원시 다중 모달 백본을 가졌더라도 변환 하에서 반복을 보이며 광범위한 안정성 우려를 시사한다.
- 세 가지 지표(RR, RI, IE)가 결합되어 고립된 반복과 지속적 저하를 구분한다.
- 다양한 콘텐츠를 가진 10,000비디오 테스트베드는 반복 현상의 견고한 측정을 지원한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.